- Olmo 3 tidak hanya membuka hasil akhir model, tetapi juga seluruh proses pengembangan (model flow), sehingga menyediakan keterlacakan penuh hingga data, kode, dan checkpoint
- Terdiri dari empat model berukuran parameter 7B dan 32B — Base, Think, Instruct, RL Zero — yang dapat dimanfaatkan untuk berbagai tujuan riset seperti penalaran, percakapan, dan reinforcement learning
- Berdasarkan dataset Dolma 3 dan Dolci, Ai2 juga membuka data pelatihan yang transparan dengan skala sekitar 9,3 triliun token mencakup web, kode, matematika, sains, dan lainnya
- Dengan alat OlmoTrace, keluaran model dapat ditelusuri secara real time ke data pelatihan asalnya, sehingga transparansi dan keandalan semakin kuat
- Karena dirilis sepenuhnya sebagai open source, siapa pun dapat ikut campur, memodifikasi, dan melatih ulang model pada tahap tertentu, membangun ekosistem riset AI yang dapat diverifikasi
Ringkasan Olmo 3
- Olmo 3 adalah keluarga model bahasa open source generasi berikutnya yang dirilis oleh Allen Institute for AI (Ai2), dengan inti utama berupa keterbukaan atas seluruh alur pengembangan model (model flow)
- Model flow mencakup semua tahap seperti pengumpulan data, prapemrosesan, pelatihan, fine-tuning, dan reinforcement learning
- Dengan ini, peneliti dan pengembang dapat menganalisis serta memodifikasi cara kerja internal model
- Olmo 3 tersedia dalam versi 7B dan 32B parameter, sehingga bisa dijalankan di beragam lingkungan, dari notebook hingga klaster riset
Susunan model utama
- Olmo 3-Base (7B, 32B)
- Model dasar yang sepenuhnya terbuka, dengan performa kelas atas di berbagai bidang seperti kode, matematika, dan pemahaman bacaan
- Bersaing dengan model sekelas seperti Qwen 2.5 dan Gemma 3, serta mendukung konteks panjang hingga 65K token
- Olmo 3-Think (7B, 32B)
- Model khusus penalaran yang dilatih untuk persoalan penalaran multilangkah, cocok untuk riset RL dan eksperimen berpikir jangka panjang
- Model 32B menunjukkan performa papan atas di kelasnya pada MATH, OMEGA, BigBenchHard, dan lainnya
- Olmo 3-Instruct (7B)
- Model yang dioptimalkan untuk percakapan, eksekusi instruksi, dan penggunaan alat, dengan performa setara atau melampaui Qwen 2.5, Gemma 3, dan Llama 3.1 di kelasnya
- Olmo 3-RL Zero (7B)
- Menyediakan jalur yang sepenuhnya terbuka untuk evaluasi algoritme reinforcement learning, termasuk checkpoint empat domain seperti matematika, kode, dan mengikuti instruksi
Performa dan benchmark
- Olmo 3-Base 32B melampaui model yang sepenuhnya terbuka seperti Marin 32B dan Apertus 70B
- Menunjukkan hasil kuat di benchmark utama seperti GSM8k (matematika) 80,5 dan HumanEval (kode) 66,5
- Olmo 3-Think 32B menunjukkan performa yang mirip atau mendekati Qwen 3 32B, serta mencatat skor tertinggi pada HumanEvalPlus dan IFEval
- Olmo 3-Instruct 7B mencatat skor tertinggi di antara model pembanding pada aspek Safety, yakni 87,3
Arsitektur dan proses pelatihan
- Menggunakan arsitektur transformer decoder-only, dengan tiga tahap pretraining (dasar → menengah → konteks panjang) dan tiga tahap post-training (SFT → DPO → RLVR)
- Checkpoint di setiap tahap dirilis, sehingga peneliti bisa melakukan fork atau eksperimen dari titik yang diinginkan
- Transparansi data di seluruh proses pelatihan dijaga melalui dataset Dolma 3 (sekitar 9,3 triliun token) dan Dolci
- Terdiri dari komponen seperti Dolma 3 Mix (6 triliun token), Dolmino (100B token), dan Longmino (50B token)
- Dolci menyediakan campuran data terpisah untuk tiap tahap SFT, DPO, dan RLVR
Infrastruktur pelatihan yang efisien
- Dilatih menggunakan hingga 1.024 GPU H100, dengan kecepatan pemrosesan 7,7K token/detik untuk model 7B
- Efisiensi pelatihan RL meningkat 4 kali lipat berkat in-flight weight updates, continuous batching, dan peningkatan threading
- Model 32B Olmo 3 diposisikan sebagai titik keseimbangan antara performa dan aksesibilitas, sehingga peneliti dapat melakukan fine-tuning secara langsung
Transparansi dan ekosistem alat
- OlmoTrace memungkinkan pelacakan visual antara keluaran model dan data pelatihannya
- Semua dataset dan toolchain dirilis sebagai open source
- Termasuk Olmo-core (framework pelatihan terdistribusi), Open Instruct (pipeline post-training), datamap-rs (pembersihan data), duplodocus (deduplikasi), dan OLMES (toolkit evaluasi)
- Peneliti dapat menganalisis tahap penalaran antara dan titik kegagalan model untuk mengidentifikasi penyebab perilaku model
Pemanfaatan dan makna
- Olmo 3 mendukung pembangunan sistem AI yang dapat dipercaya untuk riset, pendidikan, dan pengembangan aplikasi
- Karena semua tahap model dibuka, proyek ini mendorong reproduktibilitas, verifiabilitas, dan riset kolaboratif
- Ai2 menegaskan bahwa “AI open source yang sesungguhnya bukan sekadar akses, tetapi juga berarti kepercayaan, tanggung jawab, dan kemajuan bersama”
- Melalui transparansi penuh, Olmo 3 menawarkan paradigma riset terbuka baru yang memungkinkan siapa pun memahami dan meningkatkan bagian internal AI
Belum ada komentar.