5 poin oleh GN⁺ 2025-11-22 | Belum ada komentar. | Bagikan ke WhatsApp
  • Olmo 3 tidak hanya membuka hasil akhir model, tetapi juga seluruh proses pengembangan (model flow), sehingga menyediakan keterlacakan penuh hingga data, kode, dan checkpoint
  • Terdiri dari empat model berukuran parameter 7B dan 32B — Base, Think, Instruct, RL Zero — yang dapat dimanfaatkan untuk berbagai tujuan riset seperti penalaran, percakapan, dan reinforcement learning
  • Berdasarkan dataset Dolma 3 dan Dolci, Ai2 juga membuka data pelatihan yang transparan dengan skala sekitar 9,3 triliun token mencakup web, kode, matematika, sains, dan lainnya
  • Dengan alat OlmoTrace, keluaran model dapat ditelusuri secara real time ke data pelatihan asalnya, sehingga transparansi dan keandalan semakin kuat
  • Karena dirilis sepenuhnya sebagai open source, siapa pun dapat ikut campur, memodifikasi, dan melatih ulang model pada tahap tertentu, membangun ekosistem riset AI yang dapat diverifikasi

Ringkasan Olmo 3

  • Olmo 3 adalah keluarga model bahasa open source generasi berikutnya yang dirilis oleh Allen Institute for AI (Ai2), dengan inti utama berupa keterbukaan atas seluruh alur pengembangan model (model flow)
    • Model flow mencakup semua tahap seperti pengumpulan data, prapemrosesan, pelatihan, fine-tuning, dan reinforcement learning
    • Dengan ini, peneliti dan pengembang dapat menganalisis serta memodifikasi cara kerja internal model
  • Olmo 3 tersedia dalam versi 7B dan 32B parameter, sehingga bisa dijalankan di beragam lingkungan, dari notebook hingga klaster riset

Susunan model utama

  • Olmo 3-Base (7B, 32B)
    • Model dasar yang sepenuhnya terbuka, dengan performa kelas atas di berbagai bidang seperti kode, matematika, dan pemahaman bacaan
    • Bersaing dengan model sekelas seperti Qwen 2.5 dan Gemma 3, serta mendukung konteks panjang hingga 65K token
  • Olmo 3-Think (7B, 32B)
    • Model khusus penalaran yang dilatih untuk persoalan penalaran multilangkah, cocok untuk riset RL dan eksperimen berpikir jangka panjang
    • Model 32B menunjukkan performa papan atas di kelasnya pada MATH, OMEGA, BigBenchHard, dan lainnya
  • Olmo 3-Instruct (7B)
    • Model yang dioptimalkan untuk percakapan, eksekusi instruksi, dan penggunaan alat, dengan performa setara atau melampaui Qwen 2.5, Gemma 3, dan Llama 3.1 di kelasnya
  • Olmo 3-RL Zero (7B)
    • Menyediakan jalur yang sepenuhnya terbuka untuk evaluasi algoritme reinforcement learning, termasuk checkpoint empat domain seperti matematika, kode, dan mengikuti instruksi

Performa dan benchmark

  • Olmo 3-Base 32B melampaui model yang sepenuhnya terbuka seperti Marin 32B dan Apertus 70B
    • Menunjukkan hasil kuat di benchmark utama seperti GSM8k (matematika) 80,5 dan HumanEval (kode) 66,5
  • Olmo 3-Think 32B menunjukkan performa yang mirip atau mendekati Qwen 3 32B, serta mencatat skor tertinggi pada HumanEvalPlus dan IFEval
  • Olmo 3-Instruct 7B mencatat skor tertinggi di antara model pembanding pada aspek Safety, yakni 87,3

Arsitektur dan proses pelatihan

  • Menggunakan arsitektur transformer decoder-only, dengan tiga tahap pretraining (dasar → menengah → konteks panjang) dan tiga tahap post-training (SFT → DPO → RLVR)
  • Checkpoint di setiap tahap dirilis, sehingga peneliti bisa melakukan fork atau eksperimen dari titik yang diinginkan
  • Transparansi data di seluruh proses pelatihan dijaga melalui dataset Dolma 3 (sekitar 9,3 triliun token) dan Dolci
    • Terdiri dari komponen seperti Dolma 3 Mix (6 triliun token), Dolmino (100B token), dan Longmino (50B token)
    • Dolci menyediakan campuran data terpisah untuk tiap tahap SFT, DPO, dan RLVR

Infrastruktur pelatihan yang efisien

  • Dilatih menggunakan hingga 1.024 GPU H100, dengan kecepatan pemrosesan 7,7K token/detik untuk model 7B
  • Efisiensi pelatihan RL meningkat 4 kali lipat berkat in-flight weight updates, continuous batching, dan peningkatan threading
  • Model 32B Olmo 3 diposisikan sebagai titik keseimbangan antara performa dan aksesibilitas, sehingga peneliti dapat melakukan fine-tuning secara langsung

Transparansi dan ekosistem alat

  • OlmoTrace memungkinkan pelacakan visual antara keluaran model dan data pelatihannya
  • Semua dataset dan toolchain dirilis sebagai open source
    • Termasuk Olmo-core (framework pelatihan terdistribusi), Open Instruct (pipeline post-training), datamap-rs (pembersihan data), duplodocus (deduplikasi), dan OLMES (toolkit evaluasi)
  • Peneliti dapat menganalisis tahap penalaran antara dan titik kegagalan model untuk mengidentifikasi penyebab perilaku model

Pemanfaatan dan makna

  • Olmo 3 mendukung pembangunan sistem AI yang dapat dipercaya untuk riset, pendidikan, dan pengembangan aplikasi
  • Karena semua tahap model dibuka, proyek ini mendorong reproduktibilitas, verifiabilitas, dan riset kolaboratif
  • Ai2 menegaskan bahwa “AI open source yang sesungguhnya bukan sekadar akses, tetapi juga berarti kepercayaan, tanggung jawab, dan kemajuan bersama
  • Melalui transparansi penuh, Olmo 3 menawarkan paradigma riset terbuka baru yang memungkinkan siapa pun memahami dan meningkatkan bagian internal AI

Belum ada komentar.

Belum ada komentar.