5 poin oleh GN⁺ 2025-11-22 | 1 komentar | Bagikan ke WhatsApp
  • Olmo 3 tidak hanya membuka hasil akhir model, tetapi juga seluruh proses pengembangan (model flow), sehingga menyediakan keterlacakan penuh hingga data, kode, dan checkpoint
  • Terdiri dari empat model berukuran parameter 7B dan 32B — Base, Think, Instruct, RL Zero — yang dapat dimanfaatkan untuk berbagai tujuan riset seperti penalaran, percakapan, dan reinforcement learning
  • Berdasarkan dataset Dolma 3 dan Dolci, Ai2 juga membuka data pelatihan yang transparan dengan skala sekitar 9,3 triliun token mencakup web, kode, matematika, sains, dan lainnya
  • Dengan alat OlmoTrace, keluaran model dapat ditelusuri secara real time ke data pelatihan asalnya, sehingga transparansi dan keandalan semakin kuat
  • Karena dirilis sepenuhnya sebagai open source, siapa pun dapat ikut campur, memodifikasi, dan melatih ulang model pada tahap tertentu, membangun ekosistem riset AI yang dapat diverifikasi

Ringkasan Olmo 3

  • Olmo 3 adalah keluarga model bahasa open source generasi berikutnya yang dirilis oleh Allen Institute for AI (Ai2), dengan inti utama berupa keterbukaan atas seluruh alur pengembangan model (model flow)
    • Model flow mencakup semua tahap seperti pengumpulan data, prapemrosesan, pelatihan, fine-tuning, dan reinforcement learning
    • Dengan ini, peneliti dan pengembang dapat menganalisis serta memodifikasi cara kerja internal model
  • Olmo 3 tersedia dalam versi 7B dan 32B parameter, sehingga bisa dijalankan di beragam lingkungan, dari notebook hingga klaster riset

Susunan model utama

  • Olmo 3-Base (7B, 32B)
    • Model dasar yang sepenuhnya terbuka, dengan performa kelas atas di berbagai bidang seperti kode, matematika, dan pemahaman bacaan
    • Bersaing dengan model sekelas seperti Qwen 2.5 dan Gemma 3, serta mendukung konteks panjang hingga 65K token
  • Olmo 3-Think (7B, 32B)
    • Model khusus penalaran yang dilatih untuk persoalan penalaran multilangkah, cocok untuk riset RL dan eksperimen berpikir jangka panjang
    • Model 32B menunjukkan performa papan atas di kelasnya pada MATH, OMEGA, BigBenchHard, dan lainnya
    Iklan
  • Olmo 3-Instruct (7B)
    • Model yang dioptimalkan untuk percakapan, eksekusi instruksi, dan penggunaan alat, dengan performa setara atau melampaui Qwen 2.5, Gemma 3, dan Llama 3.1 di kelasnya
  • Olmo 3-RL Zero (7B)
    • Menyediakan jalur yang sepenuhnya terbuka untuk evaluasi algoritme reinforcement learning, termasuk checkpoint empat domain seperti matematika, kode, dan mengikuti instruksi

Performa dan benchmark

  • Olmo 3-Base 32B melampaui model yang sepenuhnya terbuka seperti Marin 32B dan Apertus 70B
    • Menunjukkan hasil kuat di benchmark utama seperti GSM8k (matematika) 80,5 dan HumanEval (kode) 66,5
  • Olmo 3-Think 32B menunjukkan performa yang mirip atau mendekati Qwen 3 32B, serta mencatat skor tertinggi pada HumanEvalPlus dan IFEval
  • Olmo 3-Instruct 7B mencatat skor tertinggi di antara model pembanding pada aspek Safety, yakni 87,3

Arsitektur dan proses pelatihan

  • Menggunakan arsitektur transformer decoder-only, dengan tiga tahap pretraining (dasar → menengah → konteks panjang) dan tiga tahap post-training (SFT → DPO → RLVR)
  • Checkpoint di setiap tahap dirilis, sehingga peneliti bisa melakukan fork atau eksperimen dari titik yang diinginkan
  • Transparansi data di seluruh proses pelatihan dijaga melalui dataset Dolma 3 (sekitar 9,3 triliun token) dan Dolci
    • Terdiri dari komponen seperti Dolma 3 Mix (6 triliun token), Dolmino (100B token), dan Longmino (50B token)
    • Dolci menyediakan campuran data terpisah untuk tiap tahap SFT, DPO, dan RLVR
    Iklan

Infrastruktur pelatihan yang efisien

  • Dilatih menggunakan hingga 1.024 GPU H100, dengan kecepatan pemrosesan 7,7K token/detik untuk model 7B
  • Efisiensi pelatihan RL meningkat 4 kali lipat berkat in-flight weight updates, continuous batching, dan peningkatan threading
  • Model 32B Olmo 3 diposisikan sebagai titik keseimbangan antara performa dan aksesibilitas, sehingga peneliti dapat melakukan fine-tuning secara langsung

Transparansi dan ekosistem alat

  • OlmoTrace memungkinkan pelacakan visual antara keluaran model dan data pelatihannya
  • Semua dataset dan toolchain dirilis sebagai open source
    • Termasuk Olmo-core (framework pelatihan terdistribusi), Open Instruct (pipeline post-training), datamap-rs (pembersihan data), duplodocus (deduplikasi), dan OLMES (toolkit evaluasi)
  • Peneliti dapat menganalisis tahap penalaran antara dan titik kegagalan model untuk mengidentifikasi penyebab perilaku model

Pemanfaatan dan makna

  • Olmo 3 mendukung pembangunan sistem AI yang dapat dipercaya untuk riset, pendidikan, dan pengembangan aplikasi
  • Karena semua tahap model dibuka, proyek ini mendorong reproduktibilitas, verifiabilitas, dan riset kolaboratif
  • Ai2 menegaskan bahwa “AI open source yang sesungguhnya bukan sekadar akses, tetapi juga berarti kepercayaan, tanggung jawab, dan kemajuan bersama
  • Melalui transparansi penuh, Olmo 3 menawarkan paradigma riset terbuka baru yang memungkinkan siapa pun memahami dan meningkatkan bagian internal AI

1 komentar

 
GN⁺ 2025-11-22
Komentar Hacker News
  • Menurut saya, masa depan AI adalah sistem yang memiliki langkah-langkah penalaran yang sepenuhnya dapat dilacak
    Tanpa transparansi seperti ini, tampaknya publik tidak akan punya cara untuk memahami atau mengendalikan sistem berbasis LLM besar
    Pada akhirnya ada risiko Big Tech, kaum otoriter, atau bahkan AI itu sendiri bertindak sesuka hati
    • Karena itu menarik bahwa banyak orang justru ingin menyingkirkan pendekatan seperti ini
    • Setidaknya kita harus tahu data pelatihan apa yang digunakan tiap model AI
      Saya rasa perlu ada struktur di mana lembaga pihak ketiga melakukan audit dan menyediakan laporan transparansi
    • Transparansi itu bagus, tetapi membuat respons bisa disesuaikan adalah tantangan UI/UX besar
      Saya harap upaya seperti ini terus diulang
  • Istilah “open-source AI” rasanya sudah terdistorsi oleh pemasaran
    Menyebutnya open source hanya karena bobot model dibuka adalah praktik yang keliru
    Model yang benar-benar open source butuh nama baru seperti “model transparan
  • Saya bertanya apakah jerapah itu makanan kosher, dan model menjawab “tidak”
    Tetapi menurut tafsir saya dan hukum Talmud, jerapah itu boleh, dan GPT5.1 setuju dengan tafsir saya
    • Aneh kalau model menghafal detail keagamaan seperti ini
      Informasi seperti ini seharusnya diambil lewat pencarian berbasis RAG
      Model yang menjawab “saya tidak tahu” rasanya akan lebih berguna
    • Saya penasaran apakah sudah dicoba beberapa kali, dan bagaimana pengaturan temperature atau top_p-nya
    • Menarik juga bahwa pertanyaan seperti ini tampaknya tak lagi bisa menjadi tolok ukur barang publik
  • Belakangan ini saya sedang memindahkan workflow utama saya dari OpenAI ke model lokal
    Model kecil cenderung memaksakan diri menangani edge case
    Jadi kalau diberi jalur keluar bernama edge_case, hasilnya bekerja jauh lebih baik
    Saya berharap ada repositori terpusat yang mengumpulkan tips prompt hacking seperti ini
    • Saya penasaran apakah edge_case itu adalah key dalam skema output terstruktur
    • Saya juga penasaran apakah Anda memakai frontend seperti Open WebUI atau LibreChat, atau memanggilnya langsung
  • Saya mencoba menekan “Show OlmoTrace” di AllenAI Playground
    Katanya itu menampilkan dokumen data pelatihan yang cocok dengan respons model
    Tetapi dalam praktiknya tampaknya hanya mencari kecocokan N-gram, jadi sulit disebut keterlacakan
    Ada juga hasil yang berasal dari dokumen yang tidak relevan dengan pertanyaan
    Penjelasan N-gram
    • Sebagai peneliti Olmo, saya ingin mengatakan bahwa tujuan OlmoTrace bukanlah mengatribusikan respons ke dokumen tertentu
      Melainkan menunjukkan potongan data pelatihan mana yang memengaruhi model
      Misalnya, kita bisa melacak mengapa beberapa model mengulang lelucon atau angka yang sama
  • Saya rasa ukuran model yang ideal adalah tiga lini: 7B, 20B, dan 32B
    7B cocok untuk GPU 8GB, 32B untuk GPU 24GB, dan model kelas 20B pas sekali untuk GPU 16GB
    • Tentu ini bergantung pada arsitektur
      Eksperimen untuk menemukan ukuran optimal masih terus berlangsung
      Secara pribadi saya berharap GPU punya VRAM yang bisa diperluas
  • Saya bertanya ke model 7B, “hi, who are u”, lalu ia berhenti di tengah saat menganalisis kalimat secara internal
    Sepertinya ini bug OpenWebUI
    • Setiap kali model baru keluar, selalu banyak kasus pengujian di software yang belum mendukungnya
      Waktu GPT-OSS juga begitu, dan tampaknya OLMo kali ini akan mengulang situasi serupa
    • Saya sendiri mencobanya di playground
      7B menjawab “Hi! I'm Olmo 3…”, dan 32B menjawab “Hi! I'm Olmo…”
    • Saya peneliti di tim post-training Ai2, dan saya penasaran Anda mengujinya di mana
    • Ini mengingatkan saya pada lelucon tentang menganalisis “good morning” secara berlebihan
      Pada akhirnya sapaan sederhana pun terasa berakhir menjadi tafsir filosofis
    • Saya sarankan mengecek apakah ada batas completion token yang aktif
  • Saya melihat dataset Dolma3 di Hugging Face
    dan terkejut karena sejak baris pertama sudah ada teks situs dewasa
    • Kemungkinan besar ini masih tahap pra-kurasi
      Jika ingin membuka seluruh pipeline, data seperti ini memang harus ikut disertakan
      Meski begitu, mungkin akan lebih baik kalau pratinjaunya diatur agar bagian seperti ini tidak langsung terlihat
    • Bagaimanapun juga, fiksi erotis memang salah satu use case utama untuk model seperti ini
  • Saya penasaran apa kegunaan nyata model kecil
    Kebanyakan tampaknya untuk inferensi on-device, tetapi adakah kasus lain?
    • Sebagai peneliti Ai2, saya bisa bilang 7B adalah model lokal untuk GPU konsumen, sementara 32B punya cakupan aplikasi yang lebih luas
      Banyak perusahaan mungkin memakai model hasil fine-tuning Qwen 3, lalu beralih ke Olmo 32B
    • Tim kami melakukan fine-tuning model 7B sebagai classifier khusus domain
      Performanya lebih baik daripada model kecil non-LLM
    • Saya menjalankan Qwen3-30B-VL secara standby di VRAM
      Ia lebih cepat daripada pencarian Google biasa, dan bisa menangani perintah terminal, penelusuran file, sampai merapikan catatan
      Berkat kecepatannya (90tok/s) dan latensi rendah, banyak tugas kecil jadi jauh lebih efisien
      Sebaliknya, Sonnet 4.5 lambat dan agak meleset, jadi tidak efisien untuk penggunaan nyata
  • Qwen3-30B-VL nyaris sempurna untuk penggunaan harian
    Cepat juga (90tok/s), dan mencakup sebagian besar tugas
    Riset seperti ini penting, tetapi model dense akan sulit mengejar kecepatan tersebut
    • Sebagai pengembang Olmo, saya ingin menjelaskan bahwa model Qwen cepat karena arsitektur MoE
      Versi Olmo berikutnya juga akan mengadopsi MoE
    • Saya mencobanya di MacBook baru dan terasa lambat, tetapi Qwen2.5:14B malah memberi umpan balik seketika
      Bahkan bisa bercakap-cakap dengan alami dalam Esperanto
    • Saya penasaran apakah alasan Qwen3-30B-VL terasa lebih “pintar” lebih disebabkan perbedaan arsitektur daripada sekadar ukurannya