Olmo 3: Jalur baru model flow untuk memimpin AI open source

(allenai.org)

5 poin oleh GN⁺ 2025-11-22 | Belum ada komentar. | Bagikan ke WhatsApp

Olmo 3 tidak hanya membuka hasil akhir model, tetapi juga seluruh proses pengembangan (model flow), sehingga menyediakan keterlacakan penuh hingga data, kode, dan checkpoint
Terdiri dari empat model berukuran parameter 7B dan 32B — Base, Think, Instruct, RL Zero — yang dapat dimanfaatkan untuk berbagai tujuan riset seperti penalaran, percakapan, dan reinforcement learning
Berdasarkan dataset Dolma 3 dan Dolci, Ai2 juga membuka data pelatihan yang transparan dengan skala sekitar 9,3 triliun token mencakup web, kode, matematika, sains, dan lainnya
Dengan alat OlmoTrace, keluaran model dapat ditelusuri secara real time ke data pelatihan asalnya, sehingga transparansi dan keandalan semakin kuat
Karena dirilis sepenuhnya sebagai open source, siapa pun dapat ikut campur, memodifikasi, dan melatih ulang model pada tahap tertentu, membangun ekosistem riset AI yang dapat diverifikasi

Ringkasan Olmo 3

Olmo 3 adalah keluarga model bahasa open source generasi berikutnya yang dirilis oleh Allen Institute for AI (Ai2), dengan inti utama berupa keterbukaan atas seluruh alur pengembangan model (model flow)
- Model flow mencakup semua tahap seperti pengumpulan data, prapemrosesan, pelatihan, fine-tuning, dan reinforcement learning
- Dengan ini, peneliti dan pengembang dapat menganalisis serta memodifikasi cara kerja internal model
Olmo 3 tersedia dalam versi 7B dan 32B parameter, sehingga bisa dijalankan di beragam lingkungan, dari notebook hingga klaster riset

Olmo 3-Base (7B, 32B)
- Model dasar yang sepenuhnya terbuka, dengan performa kelas atas di berbagai bidang seperti kode, matematika, dan pemahaman bacaan
- Bersaing dengan model sekelas seperti Qwen 2.5 dan Gemma 3, serta mendukung konteks panjang hingga 65K token
Olmo 3-Think (7B, 32B)
- Model khusus penalaran yang dilatih untuk persoalan penalaran multilangkah, cocok untuk riset RL dan eksperimen berpikir jangka panjang
- Model 32B menunjukkan performa papan atas di kelasnya pada MATH, OMEGA, BigBenchHard, dan lainnya
Olmo 3-Instruct (7B)
- Model yang dioptimalkan untuk percakapan, eksekusi instruksi, dan penggunaan alat, dengan performa setara atau melampaui Qwen 2.5, Gemma 3, dan Llama 3.1 di kelasnya
Olmo 3-RL Zero (7B)
- Menyediakan jalur yang sepenuhnya terbuka untuk evaluasi algoritme reinforcement learning, termasuk checkpoint empat domain seperti matematika, kode, dan mengikuti instruksi

Olmo 3-Base 32B melampaui model yang sepenuhnya terbuka seperti Marin 32B dan Apertus 70B
- Menunjukkan hasil kuat di benchmark utama seperti GSM8k (matematika) 80,5 dan HumanEval (kode) 66,5
Olmo 3-Think 32B menunjukkan performa yang mirip atau mendekati Qwen 3 32B, serta mencatat skor tertinggi pada HumanEvalPlus dan IFEval
Olmo 3-Instruct 7B mencatat skor tertinggi di antara model pembanding pada aspek Safety, yakni 87,3

Menggunakan arsitektur transformer decoder-only, dengan tiga tahap pretraining (dasar → menengah → konteks panjang) dan tiga tahap post-training (SFT → DPO → RLVR)
Checkpoint di setiap tahap dirilis, sehingga peneliti bisa melakukan fork atau eksperimen dari titik yang diinginkan
Transparansi data di seluruh proses pelatihan dijaga melalui dataset Dolma 3 (sekitar 9,3 triliun token) dan Dolci
- Terdiri dari komponen seperti Dolma 3 Mix (6 triliun token), Dolmino (100B token), dan Longmino (50B token)
- Dolci menyediakan campuran data terpisah untuk tiap tahap SFT, DPO, dan RLVR

Dilatih menggunakan hingga 1.024 GPU H100, dengan kecepatan pemrosesan 7,7K token/detik untuk model 7B
Efisiensi pelatihan RL meningkat 4 kali lipat berkat in-flight weight updates, continuous batching, dan peningkatan threading
Model 32B Olmo 3 diposisikan sebagai titik keseimbangan antara performa dan aksesibilitas, sehingga peneliti dapat melakukan fine-tuning secara langsung

OlmoTrace memungkinkan pelacakan visual antara keluaran model dan data pelatihannya
Semua dataset dan toolchain dirilis sebagai open source
- Termasuk Olmo-core (framework pelatihan terdistribusi), Open Instruct (pipeline post-training), datamap-rs (pembersihan data), duplodocus (deduplikasi), dan OLMES (toolkit evaluasi)
Peneliti dapat menganalisis tahap penalaran antara dan titik kegagalan model untuk mengidentifikasi penyebab perilaku model

Olmo 3 mendukung pembangunan sistem AI yang dapat dipercaya untuk riset, pendidikan, dan pengembangan aplikasi
Karena semua tahap model dibuka, proyek ini mendorong reproduktibilitas, verifiabilitas, dan riset kolaboratif
Ai2 menegaskan bahwa “AI open source yang sesungguhnya bukan sekadar akses, tetapi juga berarti kepercayaan, tanggung jawab, dan kemajuan bersama”
Melalui transparansi penuh, Olmo 3 menawarkan paradigma riset terbuka baru yang memungkinkan siapa pun memahami dan meningkatkan bagian internal AI