- Olmo 3 tidak hanya membuka hasil akhir model, tetapi juga seluruh proses pengembangan (model flow), sehingga menyediakan keterlacakan penuh hingga data, kode, dan checkpoint
- Terdiri dari empat model berukuran parameter 7B dan 32B — Base, Think, Instruct, RL Zero — yang dapat dimanfaatkan untuk berbagai tujuan riset seperti penalaran, percakapan, dan reinforcement learning
- Berdasarkan dataset Dolma 3 dan Dolci, Ai2 juga membuka data pelatihan yang transparan dengan skala sekitar 9,3 triliun token mencakup web, kode, matematika, sains, dan lainnya
- Dengan alat OlmoTrace, keluaran model dapat ditelusuri secara real time ke data pelatihan asalnya, sehingga transparansi dan keandalan semakin kuat
- Karena dirilis sepenuhnya sebagai open source, siapa pun dapat ikut campur, memodifikasi, dan melatih ulang model pada tahap tertentu, membangun ekosistem riset AI yang dapat diverifikasi
Ringkasan Olmo 3
- Olmo 3 adalah keluarga model bahasa open source generasi berikutnya yang dirilis oleh Allen Institute for AI (Ai2), dengan inti utama berupa keterbukaan atas seluruh alur pengembangan model (model flow)
- Model flow mencakup semua tahap seperti pengumpulan data, prapemrosesan, pelatihan, fine-tuning, dan reinforcement learning
- Dengan ini, peneliti dan pengembang dapat menganalisis serta memodifikasi cara kerja internal model
- Olmo 3 tersedia dalam versi 7B dan 32B parameter, sehingga bisa dijalankan di beragam lingkungan, dari notebook hingga klaster riset
Susunan model utama
- Olmo 3-Base (7B, 32B)
- Model dasar yang sepenuhnya terbuka, dengan performa kelas atas di berbagai bidang seperti kode, matematika, dan pemahaman bacaan
- Bersaing dengan model sekelas seperti Qwen 2.5 dan Gemma 3, serta mendukung konteks panjang hingga 65K token
- Olmo 3-Think (7B, 32B)
- Model khusus penalaran yang dilatih untuk persoalan penalaran multilangkah, cocok untuk riset RL dan eksperimen berpikir jangka panjang
- Model 32B menunjukkan performa papan atas di kelasnya pada MATH, OMEGA, BigBenchHard, dan lainnya
- Olmo 3-Instruct (7B)
- Model yang dioptimalkan untuk percakapan, eksekusi instruksi, dan penggunaan alat, dengan performa setara atau melampaui Qwen 2.5, Gemma 3, dan Llama 3.1 di kelasnya
- Olmo 3-RL Zero (7B)
- Menyediakan jalur yang sepenuhnya terbuka untuk evaluasi algoritme reinforcement learning, termasuk checkpoint empat domain seperti matematika, kode, dan mengikuti instruksi
Performa dan benchmark
- Olmo 3-Base 32B melampaui model yang sepenuhnya terbuka seperti Marin 32B dan Apertus 70B
- Menunjukkan hasil kuat di benchmark utama seperti GSM8k (matematika) 80,5 dan HumanEval (kode) 66,5
- Olmo 3-Think 32B menunjukkan performa yang mirip atau mendekati Qwen 3 32B, serta mencatat skor tertinggi pada HumanEvalPlus dan IFEval
- Olmo 3-Instruct 7B mencatat skor tertinggi di antara model pembanding pada aspek Safety, yakni 87,3
Arsitektur dan proses pelatihan
- Menggunakan arsitektur transformer decoder-only, dengan tiga tahap pretraining (dasar → menengah → konteks panjang) dan tiga tahap post-training (SFT → DPO → RLVR)
- Checkpoint di setiap tahap dirilis, sehingga peneliti bisa melakukan fork atau eksperimen dari titik yang diinginkan
- Transparansi data di seluruh proses pelatihan dijaga melalui dataset Dolma 3 (sekitar 9,3 triliun token) dan Dolci
- Terdiri dari komponen seperti Dolma 3 Mix (6 triliun token), Dolmino (100B token), dan Longmino (50B token)
- Dolci menyediakan campuran data terpisah untuk tiap tahap SFT, DPO, dan RLVR
Infrastruktur pelatihan yang efisien
- Dilatih menggunakan hingga 1.024 GPU H100, dengan kecepatan pemrosesan 7,7K token/detik untuk model 7B
- Efisiensi pelatihan RL meningkat 4 kali lipat berkat in-flight weight updates, continuous batching, dan peningkatan threading
- Model 32B Olmo 3 diposisikan sebagai titik keseimbangan antara performa dan aksesibilitas, sehingga peneliti dapat melakukan fine-tuning secara langsung
Transparansi dan ekosistem alat
- OlmoTrace memungkinkan pelacakan visual antara keluaran model dan data pelatihannya
- Semua dataset dan toolchain dirilis sebagai open source
- Termasuk Olmo-core (framework pelatihan terdistribusi), Open Instruct (pipeline post-training), datamap-rs (pembersihan data), duplodocus (deduplikasi), dan OLMES (toolkit evaluasi)
- Peneliti dapat menganalisis tahap penalaran antara dan titik kegagalan model untuk mengidentifikasi penyebab perilaku model
Pemanfaatan dan makna
- Olmo 3 mendukung pembangunan sistem AI yang dapat dipercaya untuk riset, pendidikan, dan pengembangan aplikasi
- Karena semua tahap model dibuka, proyek ini mendorong reproduktibilitas, verifiabilitas, dan riset kolaboratif
- Ai2 menegaskan bahwa “AI open source yang sesungguhnya bukan sekadar akses, tetapi juga berarti kepercayaan, tanggung jawab, dan kemajuan bersama”
- Melalui transparansi penuh, Olmo 3 menawarkan paradigma riset terbuka baru yang memungkinkan siapa pun memahami dan meningkatkan bagian internal AI
1 komentar
Komentar Hacker News
Tanpa transparansi seperti ini, tampaknya publik tidak akan punya cara untuk memahami atau mengendalikan sistem berbasis LLM besar
Pada akhirnya ada risiko Big Tech, kaum otoriter, atau bahkan AI itu sendiri bertindak sesuka hati
Saya rasa perlu ada struktur di mana lembaga pihak ketiga melakukan audit dan menyediakan laporan transparansi
Saya harap upaya seperti ini terus diulang
Menyebutnya open source hanya karena bobot model dibuka adalah praktik yang keliru
Model yang benar-benar open source butuh nama baru seperti “model transparan”
Tetapi menurut tafsir saya dan hukum Talmud, jerapah itu boleh, dan GPT5.1 setuju dengan tafsir saya
Informasi seperti ini seharusnya diambil lewat pencarian berbasis RAG
Model yang menjawab “saya tidak tahu” rasanya akan lebih berguna
Model kecil cenderung memaksakan diri menangani edge case
Jadi kalau diberi jalur keluar bernama
edge_case, hasilnya bekerja jauh lebih baikSaya berharap ada repositori terpusat yang mengumpulkan tips prompt hacking seperti ini
edge_caseitu adalah key dalam skema output terstrukturKatanya itu menampilkan dokumen data pelatihan yang cocok dengan respons model
Tetapi dalam praktiknya tampaknya hanya mencari kecocokan N-gram, jadi sulit disebut keterlacakan
Ada juga hasil yang berasal dari dokumen yang tidak relevan dengan pertanyaan
Penjelasan N-gram
Melainkan menunjukkan potongan data pelatihan mana yang memengaruhi model
Misalnya, kita bisa melacak mengapa beberapa model mengulang lelucon atau angka yang sama
7B cocok untuk GPU 8GB, 32B untuk GPU 24GB, dan model kelas 20B pas sekali untuk GPU 16GB
Eksperimen untuk menemukan ukuran optimal masih terus berlangsung
Secara pribadi saya berharap GPU punya VRAM yang bisa diperluas
Sepertinya ini bug OpenWebUI
Waktu GPT-OSS juga begitu, dan tampaknya OLMo kali ini akan mengulang situasi serupa
7B menjawab “Hi! I'm Olmo 3…”, dan 32B menjawab “Hi! I'm Olmo…”
Pada akhirnya sapaan sederhana pun terasa berakhir menjadi tafsir filosofis
dan terkejut karena sejak baris pertama sudah ada teks situs dewasa
Jika ingin membuka seluruh pipeline, data seperti ini memang harus ikut disertakan
Meski begitu, mungkin akan lebih baik kalau pratinjaunya diatur agar bagian seperti ini tidak langsung terlihat
Kebanyakan tampaknya untuk inferensi on-device, tetapi adakah kasus lain?
Banyak perusahaan mungkin memakai model hasil fine-tuning Qwen 3, lalu beralih ke Olmo 32B
Performanya lebih baik daripada model kecil non-LLM
Ia lebih cepat daripada pencarian Google biasa, dan bisa menangani perintah terminal, penelusuran file, sampai merapikan catatan
Berkat kecepatannya (90tok/s) dan latensi rendah, banyak tugas kecil jadi jauh lebih efisien
Sebaliknya, Sonnet 4.5 lambat dan agak meleset, jadi tidak efisien untuk penggunaan nyata
Cepat juga (90tok/s), dan mencakup sebagian besar tugas
Riset seperti ini penting, tetapi model dense akan sulit mengejar kecepatan tersebut
Versi Olmo berikutnya juga akan mengadopsi MoE
Bahkan bisa bercakap-cakap dengan alami dalam Esperanto