- VibeThinker-3B adalah model dense kecil yang menguji sejauh mana penalaran yang dapat diverifikasi bisa dikompresi hanya dengan 3B parameter
- Pipeline pelatihannya menggabungkan post-training Spectrum-to-Signal dengan curriculum supervised fine-tuning, reinforcement learning multi-domain, dan self-distillation offline
- Mencatat 94.3 pada AIME26 dan 97.1 saat CLR diterapkan; juga dilaporkan memperoleh LiveCodeBench v6 Pass@1 80.2 dan acceptance rate 96.1% pada kontes LeetCode terbaru yang belum dipublikasikan
- Meski masuk ke kisaran performa yang setara atau lebih tinggi dibanding model flagship yang jauh lebih besar seperti DeepSeek V3.2, GLM-5, dan Gemini 3 Pro, model ini tetap mempertahankan kontrol kepatuhan instruksi yang ketat dengan skor IFEval 93.4
- Parametric Compression-Coverage Hypothesis menyatakan bahwa penalaran yang dapat diverifikasi dapat dikompresi ke reasoning core kecil, tetapi pengetahuan terbuka dan kapabilitas umum tetap memerlukan cakupan parameter yang lebih luas
Eksperimen yang mendorong penalaran terverifikasi dengan model 3B
- VibeThinker-3B adalah model dense kecil berskala 3B parameter
- Tujuannya adalah memeriksa seberapa jauh performa penalaran yang dapat diverifikasi bisa didorong bahkan dalam rezim model kecil yang ketat
- Post-training disusun di atas paradigma Spectrum-to-Signal
- supervised fine-tuning berbasis kurikulum
- reinforcement learning multi-domain
- self-distillation offline
- Hasil kali ini merupakan kelanjutan yang memperluas pekerjaan 1.5B sebelumnya
Rentang performa yang terlihat pada evaluasi
- Menunjukkan performa kelas frontier pada evaluasi matematika, coding, dan instruction following
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- kontes LeetCode terbaru yang belum dipublikasikan: acceptance rate 96.1%
- IFEval: 93.4
- CLR adalah singkatan dari Claim-Level Reliability Assessment, yaitu strategi test-time scaling di tingkat klaim
- Pembanding pada Figure 1 mencakup Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5, dan Claude Opus 4.5
- Berdasarkan hasil yang dilaporkan, VibeThinker-3B dapat masuk ke kisaran performa yang sama atau lebih tinggi daripada model flagship yang jauh lebih besar seperti DeepSeek V3.2, GLM-5, dan Gemini 3 Pro
- Dalam perbandingan skala parameter, VibeThinker-3B ditandai sebagai 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- Parametric Compression-Coverage Hypothesis memandang compact model bukan sekadar alternatif untuk efisiensi deployment, melainkan jalur pelengkap untuk mencapai performa kelas frontier dalam wilayah kapabilitas yang padat parameter
1 komentar
Komentar Hacker News
Saya penasaran apakah ini pada dasarnya hanyalah model kecil yang dilatih agar pandai bernalar
Mirip orang cerdas yang mungkin tidak tahu topik tertentu, tetapi kalau diberi alat akan rajin menelitinya
Akan sangat bagus jika, alih-alih membuat model mempelajari semua pengetahuan, kita cukup melatihnya cara belajar sehingga dengan perangkat kecil seperti Pi Zero dan koneksi internet saja ia bisa mencari tahu sendiri
Daripada mengenkodekan semua pengetahuan ke dalam parameter, saya pernah membayangkan bagaimana kalau membuat model yang, dengan ukuran yang sama, memakai sebagian besar kapasitasnya untuk penalaran
Cukup beri kemampuan menjelajah internet, lalu biarkan ia mencari spesifikasi bahasa, dokumentasi, dan praktik terbaik
Saya tidak mengerti kenapa agen coding saya harus tahu populasi New York, resep cheesecake, atau umur burung unta
Beri saja pengetahuan minimum yang diperlukan untuk berpikir dan bernalar, lalu biarkan sisanya ia cari sendiri
Hanya saja, sayangnya model bahasa besar saat ini pada akhirnya tetap prediksi token, jadi tidak bekerja seperti itu
Penalaran adalah produk sampingan yang muncul dari pelatihan atas seluruh pengetahuan, dan dalam bentuk ini pun model tidak benar-benar “mengetahui” sesuatu, melainkan hanya menghasilkan token
Tanpa dilatih pada dataset besar yang berisi banyak kata dan hubungan yang masuk akal di antaranya, model tidak bisa membentuk hubungan yang tepat antara kata dan kalimat, sehingga juga tidak bisa bernalar
Kalau Anda melatih model kecil dengan dataset yang sangat kecil, Anda akan melihat keluaran yang ngawur
Mungkin menarik untuk mengoptimalkan dataset agar dengan data minimum bisa menghasilkan keluaran maksimum, tetapi bagi perusahaan yang ingin membuat model mutakhir, secara ekonomi jauh lebih masuk akal menambah beberapa GPU daripada mengerjakan upaya seperti itu
Misalnya, bahkan pertanyaan yang sangat dasar seperti memasukkan bola ke dalam cangkir, membalik cangkir dan meletakkannya di atas meja, lalu mengangkat cangkir dan memasukkannya ke dalam kotak, membutuhkan pengetahuan yang tidak dinyatakan eksplisit dalam soal, terutama tentang gravitasi
Jika kita mencoba mendefinisikan semua istilah secara ketat, kita akan cepat tenggelam dalam rawa kompleksitas
Untuk memahami instruksi, diperlukan pengetahuan dasar tentang benda-benda, dan jika hanya tahu cara bernalar, model tidak punya gambaran tentang apa yang harus dicapai
Ada pemutusan yang cukup jelas antara gudang teks raksasa tempat model dilatih dan kemampuan untuk mempertimbangkan suatu topik secara kokoh
Saya juga penasaran apakah jalur itu bisa diarahkan lewat urutan pelatihan
Misalnya, apakah akan sangat berbeda jika model terlebih dulu mempelajari literasi dasar dari TinyStories, lalu teks matematika dan filsafat, kemudian teks psikologi dan sosiologi, dan terakhir data besar yang juga mencakup percakapan, tulisan bernada marah, kode, dan novel, dibanding model yang lebih dulu dilatih pada akting, penulisan kreatif, dan novel fantasi lalu diberi dataset besar akhir yang sama
Saya juga penasaran seberapa besar kemampuan saat ini memengaruhi cara model mengontekstualisasikan data pelatihan baru
Model ini dilatih untuk menyelesaikan masalah dengan menghasilkan rantai pemikiran (CoT) yang panjang, dan itu memang dilakukannya dengan baik, tetapi kemampuan pemanggilan alatnya hampir tidak ada, dan kemampuan mengelola lebih dari 1–2 pesan juga nyaris tidak ada
Lihat saja peringatan di bagian paling atas https://huggingface.co/WeiboAI/VibeThinker-3B
Menurut saya, garis depan berikutnya adalah mengoptimalkan model agar lebih cakap dengan perangkat keras yang lebih sedikit
Akan lebih menarik lagi jika pembelajaran waktu nyata juga menjadi mungkin
Dengan munculnya terobosan model kecil tapi kuat, ini terlihat seperti mulai melampaui daya tembak modal murni dari para penyedia model mutakhir
Saya ingin mendukung pihak yang kecil, tetapi rasanya masih terlalu dini untuk menyimpulkan
Di sisi lain, bisa juga benchmark saat ini belum cukup efisien untuk menangkap keberhasilan alur kerja pengembang yang sebenarnya
Hanya saja, kalau diajak berdialog, model ini kemungkinan besar akan gagal dan kehilangan konsistensi
Sebaliknya, kemampuan model ini untuk bernalar dan menyelesaikan soal matematika memang sangat bagus
Berjalan dengan baik, dan mengingatkan saya pada model Claude pertama yang pernah saya pakai
Ini model lokal pertama untuk agen coding yang pernah saya coba dan benar-benar terasa layak dipakai, jadi saya sangat antusias
Agar model apa pun berguna, ia memerlukan tingkat kecerdasan dasar bahkan untuk tugas yang sempit
Bisakah Anda mengajari anak 5 tahun menyetir? Bagaimana dengan 10 tahun? 12 tahun?
Untuk menyetir, seseorang harus bisa membaca, menilai kondisi jalan yang licin atau hujan, dan mengantisipasi anak yang berlari mengejar bola
Manusia biasanya memperoleh pengetahuan dasar seperti ini pada pertengahan masa remaja
Bahkan model kecil pun memerlukan tingkat pengetahuan dasar tertentu agar bisa benar-benar baik, meskipun hanya di domain yang tampak sempit
Mungkin tidak perlu sampai semua pengetahuan langka milik model frontier, tetapi kemungkinan ada baseline yang lebih tinggi daripada dugaan awal
Mungkin Anda perlu bisa membaca untuk lulus ujian SIM, tetapi di seluruh dunia ada banyak orang buta huruf yang tetap bisa menyetir dengan baik
Ada alasan mengapa rambu jalan umum dibuat agar bisa dikenali hanya dari bentuk dan warnanya
Menyetir sendiri terutama bergantung pada memori otot untuk mengendalikan mobil, dan karena itu orang yang sering menyetir bisa bergerak hampir seperti autopilot saat perjalanan jauh sambil memikirkan hal yang sama sekali lain
Ini juga bentuk pengetahuan, tetapi hanya diperoleh melalui pengulangan
Tentu saja, untuk menyetir di tengah lalu lintas diperlukan jauh lebih banyak hal, seperti pemahaman dasar aturan lalu lintas, tetapi sebagian besar menyetir adalah memori otot, pemahaman kendaraan, dan prediksi atas apa yang akan terjadi berikutnya
Primata unggul dalam hal seperti ini karena berevolusi selama jutaan tahun dengan menggunakan tubuh mereka dan melihat hasilnya
Pernah ada GIF orangutan yang mengendarai mobil golf, meski tidak jelas seberapa nyata itu
Akan lebih membantu jika model dipandang sebagai alat dengan kemampuan tertentu di domain tertentu, bukan sebagai manusia tiruan masa depan
Sama seperti tidak masuk akal meminta Opus 4.8 menyetir mobil, tidak masuk akal juga mengharapkan model gambar kecil untuk perangkat edge menulis novel
Model harus dilihat sebagai alat yang dibuat untuk kegunaan tertentu
Menurut saya hambatan nyatanya adalah a) kemampuan menilai, b) refleks fisik dan tingkat kekuatan
Saat kecil pun saya sudah tahu tentang es, salju, dan hujan
Saya bersepeda sepanjang empat musim, dan di salju atau medan basah, terutama saat pergantian musim, saya kurang percaya diri dalam mengendalikan sepeda
Pengalaman itu berlanjut menjadi proses belajar menyetir di musim dingin Kanada utara, dan saya menerapkan pelajaran yang sama saat mengemudi
Dalam lingkungan tanpa konsekuensi, saya melihat anak-anak mengendalikan simulator nyata atau simulasi mengemudi dalam video game dengan presisi yang mengejutkan
Kadang anak usia 9–11 tahun bermain simulasi dan game dengan jauh lebih percaya diri daripada pengemudi dewasa
Anak-anak tahu bahwa simulasi tidak punya konsekuensi, dan tanpa motivasi tambahan mereka bertindak sesuai itu
Sebaliknya, pada orang dewasa yang rutin menyetir, memori otot dan prasangka mendominasi pengambilan keputusan bahkan saat bermain game
Saya penasaran berapa banyak pelatihan dan paparan yang dibutuhkan agar anak-anak bisa mengatasi ketidakmampuan mereka memahami batas nyata dan konsekuensi nyata dari menyetir dan kesalahan saat menyetir; dan sebaliknya, berapa banyak yang dibutuhkan agar pengemudi terampil tetapi pemula dalam game berhenti menerapkan pengalaman dunia nyata mereka ke simulasi tanpa konsekuensi
Kemampuan membaca tidak diperlukan untuk mengendarai mobil
Namun menyetir di jalan bersama orang lain adalah cerita yang sama sekali berbeda
Anak usia tiga tahun kemungkinan akan terlalu banyak mengeksplorasi dalam situasi di mana kesalahan berbahaya
Ini bukan hanya soal pengetahuan, tetapi juga memerlukan sistem kontrol yang berkembang bersama korteks prefrontal
Model bahasa besar masih belum mampu melakukan kontrol seperti ini dalam kadar besar
Perlu dicatat bahwa hasil ini khusus Python
Dalam bahasa lain, performanya kemungkinan tidak akan sebaik ini
Menyenangkan melihat semakin banyak model bahasa kecil yang terspesialisasi per domain
Model Mixture of Experts (MoE) yang terspesialisasi untuk pemrograman mungkin bisa bekerja baik lintas banyak bahasa
Model ini adalah pakar murah untuk tugas penalaran terverifikasi di dunia tertutup, seperti matematika dan soal coding mandiri
“Dunia tertutup” berarti informasi yang dibutuhkan sudah ada di dalam konteks
Model ini bukan agen penggunaan alat yang menemukan konteks yang hilang
“Terverifikasi” berarti masalahnya sulit dijawab, tetapi mudah diperiksa
Karena itu model ini tidak cocok untuk riset terbuka, tugas agen yang menangani seluruh repositori, tanya jawab faktual, atau pembuatan SVG
Model ini lebih dekat ke modul penalaran kecil untuk masalah dengan batas yang jelas
Hal menarik dari model sekecil ini adalah tampaknya ia bisa dimuat ke satu chip Taalas
HC1 juga sudah menjalankan model Llama 3.1 8B
Kita sudah sampai pada titik di mana penalaran yang lumayan bagus bisa dijalankan di ASIC, dan itu pun dengan kecepatan luar biasa
Saya mencoba model ini sebagai pengganti GPT-5 nano untuk review keamanan source code, dan sejauh ini cukup berhasil
Berjalan dengan vLLM pada RTX 3090 24GB VRAM
Seperti tertulis di model card, output terstruktur memang kurang bagus, tetapi saya mengakalinya di test harness saya
Saya mencoba membuat pelican SVG klasik, tetapi hasilnya gagal total karena hanya menampilkan persegi dan lingkaran hitam
Intinya terlihat bahwa pengetahuan seperti “pelikan punya sayap” dikurangi, sambil tetap mempertahankan kemampuan penalaran inti
“Temuan ini mendukung hipotesis kompresi-cakupan parameter. Hipotesis ini menyatakan bahwa penalaran yang dapat diverifikasi bisa dikompresi ke dalam inti penalaran kecil, tetapi pengetahuan domain terbuka dan kemampuan umum memerlukan cakupan parameter yang luas atas fakta, konsep, dan skenario long-tail.”
Lalu berikan tag SVG dan referensi dokumen yang ingin dipakai
Hasil yang saya dapat ada di sini: https://9ol.es/tmp/pelican.png
Prompt-nya ada di https://9ol.es/tmp/prompt_pelican.txt
Model yang dipakai adalah prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
Saya masih belum bisa mempercayai evaluasi dan benchmark
Bagaimana kita bisa membuktikan bahwa dataset uji itu benar-benar berisi contoh yang belum dipublikasikan?
Menurut saya, satu-satunya cara membuktikan bahwa model-model ini memang sebagus klaimnya adalah menunggu apakah mereka benar-benar diadopsi di dunia nyata
Jika harus mengimplementasikan sesuatu seperti mesin penalaran, maka kita perlu merancang dan mengimplementasikan arsitektur terbaik yang sesuai, lalu mengujinya
Sangat menyenangkan melihat model bahasa kecil yang kompeten seperti ini bermunculan
Namun, di Hugging Face tertulis seperti ini:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Jadi model ini tidak bisa langsung dipasang ke coding harness seperti pi.dev
Lebih baik dalam bernalar daripada Opus 4.5?
Prompt: “Jika A pergi ke B, lalu B melanjutkan ke C, apakah A bisa mengirim sesuatu ke C?”
Responsnya seperti ini:
“Ini harus ditafsirkan dengan cara yang paling tepat. Kalimat ini bisa jadi teka-teki tentang konsep mengirim sesuatu, misalnya mengoper bola, dan tentang relasi.
Skenario: A memberi sesuatu kepada B, lalu B meneruskannya kepada C.
Pertanyaan: apakah A juga bisa memberikan hal yang sama kepada C?
Jawaban: itu hanya mungkin jika A bisa mendapatkan salinan kedua. Misalnya jika benda itu diduplikasi. Jika tidak, setelah menyerahkannya ke B, A tidak lagi memilikinya, jadi tanpa salinan A tidak bisa ‘mengirimkannya’.”
Selain itu masih ada banyak penjelasan dan “skenario” yang tidak perlu dan kurang masuk akal
Meski begitu, jawabannya tetap benar
Dan jika membandingkan jumlah operasi floating-point yang dipakai untuk sampai ke jawaban dengan Opus, menurut saya itu tetap keuntungan bersih
Firasa saya, model seukuran Opus punya jalan pintas yang sudah terenkode di dalam model untuk menangani kasus ambigu seperti ini, sedangkan model ini tampaknya belajar semacam program untuk menalar kasus batas secara spontan
Ini terasa mirip perbedaan antara kecerdasan yang terkristalisasi dan kecerdasan yang cair
Model frontier seperti mengingat probabilitas, sedangkan VibeThinker terasa seperti menghitungnya saat itu juga
“Kontrol kualitas multi-tahap.”
“Penyaringan kualitas kueri berbasis model bahasa besar. Kami menggunakan model bahasa besar berkinerja tinggi untuk menilai kualitas kueri, dan menyaring sampel yang penjelasannya tidak lengkap, kondisinya tidak masuk akal, logikanya salah, atau tidak dapat secara efektif mengevaluasi poin pengetahuan yang dituju.”