VibeThinker-3B: Model 3B yang melampaui performa penalaran Opus 4.5 dengan SFT+GRPO

(arxiv.org)

2 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp

VibeThinker-3B adalah model dense kecil yang menguji sejauh mana penalaran yang dapat diverifikasi bisa dikompresi hanya dengan 3B parameter
Pipeline pelatihannya menggabungkan post-training Spectrum-to-Signal dengan curriculum supervised fine-tuning, reinforcement learning multi-domain, dan self-distillation offline
Mencatat 94.3 pada AIME26 dan 97.1 saat CLR diterapkan; juga dilaporkan memperoleh LiveCodeBench v6 Pass@1 80.2 dan acceptance rate 96.1% pada kontes LeetCode terbaru yang belum dipublikasikan
Meski masuk ke kisaran performa yang setara atau lebih tinggi dibanding model flagship yang jauh lebih besar seperti DeepSeek V3.2, GLM-5, dan Gemini 3 Pro, model ini tetap mempertahankan kontrol kepatuhan instruksi yang ketat dengan skor IFEval 93.4
Parametric Compression-Coverage Hypothesis menyatakan bahwa penalaran yang dapat diverifikasi dapat dikompresi ke reasoning core kecil, tetapi pengetahuan terbuka dan kapabilitas umum tetap memerlukan cakupan parameter yang lebih luas

Eksperimen yang mendorong penalaran terverifikasi dengan model 3B

VibeThinker-3B adalah model dense kecil berskala 3B parameter
Tujuannya adalah memeriksa seberapa jauh performa penalaran yang dapat diverifikasi bisa didorong bahkan dalam rezim model kecil yang ketat
Post-training disusun di atas paradigma Spectrum-to-Signal
- supervised fine-tuning berbasis kurikulum
- reinforcement learning multi-domain
- self-distillation offline
Hasil kali ini merupakan kelanjutan yang memperluas pekerjaan 1.5B sebelumnya

Rentang performa yang terlihat pada evaluasi

Menunjukkan performa kelas frontier pada evaluasi matematika, coding, dan instruction following
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- kontes LeetCode terbaru yang belum dipublikasikan: acceptance rate 96.1%
- IFEval: 93.4
CLR adalah singkatan dari Claim-Level Reliability Assessment, yaitu strategi test-time scaling di tingkat klaim
Pembanding pada Figure 1 mencakup Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5, dan Claude Opus 4.5
Berdasarkan hasil yang dilaporkan, VibeThinker-3B dapat masuk ke kisaran performa yang sama atau lebih tinggi daripada model flagship yang jauh lebih besar seperti DeepSeek V3.2, GLM-5, dan Gemini 3 Pro
Dalam perbandingan skala parameter, VibeThinker-3B ditandai sebagai 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
Parametric Compression-Coverage Hypothesis memandang compact model bukan sekadar alternatif untuk efisiensi deployment, melainkan jalur pelengkap untuk mencapai performa kelas frontier dalam wilayah kapabilitas yang padat parameter

1 komentar

GN⁺ 5 jam lalu

Komentar Hacker News

Saya penasaran apakah ini pada dasarnya hanyalah model kecil yang dilatih agar pandai bernalar
Mirip orang cerdas yang mungkin tidak tahu topik tertentu, tetapi kalau diberi alat akan rajin menelitinya
Akan sangat bagus jika, alih-alih membuat model mempelajari semua pengetahuan, kita cukup melatihnya cara belajar sehingga dengan perangkat kecil seperti Pi Zero dan koneksi internet saja ia bisa mencari tahu sendiri
- Saya sudah lama memimpikan hal seperti ini
  Daripada mengenkodekan semua pengetahuan ke dalam parameter, saya pernah membayangkan bagaimana kalau membuat model yang, dengan ukuran yang sama, memakai sebagian besar kapasitasnya untuk penalaran
  Cukup beri kemampuan menjelajah internet, lalu biarkan ia mencari spesifikasi bahasa, dokumentasi, dan praktik terbaik
  Saya tidak mengerti kenapa agen coding saya harus tahu populasi New York, resep cheesecake, atau umur burung unta
  Beri saja pengetahuan minimum yang diperlukan untuk berpikir dan bernalar, lalu biarkan sisanya ia cari sendiri
  Hanya saja, sayangnya model bahasa besar saat ini pada akhirnya tetap prediksi token, jadi tidak bekerja seperti itu
- Saya justru lebih dekat ke pandangan sebaliknya
  Penalaran adalah produk sampingan yang muncul dari pelatihan atas seluruh pengetahuan, dan dalam bentuk ini pun model tidak benar-benar “mengetahui” sesuatu, melainkan hanya menghasilkan token
  Tanpa dilatih pada dataset besar yang berisi banyak kata dan hubungan yang masuk akal di antaranya, model tidak bisa membentuk hubungan yang tepat antara kata dan kalimat, sehingga juga tidak bisa bernalar
  Kalau Anda melatih model kecil dengan dataset yang sangat kecil, Anda akan melihat keluaran yang ngawur
  Mungkin menarik untuk mengoptimalkan dataset agar dengan data minimum bisa menghasilkan keluaran maksimum, tetapi bagi perusahaan yang ingin membuat model mutakhir, secara ekonomi jauh lebih masuk akal menambah beberapa GPU daripada mengerjakan upaya seperti itu
- Kita mungkin bisa melatih model agar cukup baik menangani logika Boolean, logika modal, dan matematika, tetapi ada jurang besar sebelum itu bisa disebut “memikirkan benda-benda”
  Misalnya, bahkan pertanyaan yang sangat dasar seperti memasukkan bola ke dalam cangkir, membalik cangkir dan meletakkannya di atas meja, lalu mengangkat cangkir dan memasukkannya ke dalam kotak, membutuhkan pengetahuan yang tidak dinyatakan eksplisit dalam soal, terutama tentang gravitasi
  Jika kita mencoba mendefinisikan semua istilah secara ketat, kita akan cepat tenggelam dalam rawa kompleksitas
  Untuk memahami instruksi, diperlukan pengetahuan dasar tentang benda-benda, dan jika hanya tahu cara bernalar, model tidak punya gambaran tentang apa yang harus dicapai
  Ada pemutusan yang cukup jelas antara gudang teks raksasa tempat model dilatih dan kemampuan untuk mempertimbangkan suatu topik secara kokoh
  Saya juga penasaran apakah jalur itu bisa diarahkan lewat urutan pelatihan
  Misalnya, apakah akan sangat berbeda jika model terlebih dulu mempelajari literasi dasar dari TinyStories, lalu teks matematika dan filsafat, kemudian teks psikologi dan sosiologi, dan terakhir data besar yang juga mencakup percakapan, tulisan bernada marah, kode, dan novel, dibanding model yang lebih dulu dilatih pada akting, penulisan kreatif, dan novel fantasi lalu diberi dataset besar akhir yang sama
  Saya juga penasaran seberapa besar kemampuan saat ini memengaruhi cara model mengontekstualisasikan data pelatihan baru
- Kenyataannya justru kebalikannya
  Model ini dilatih untuk menyelesaikan masalah dengan menghasilkan rantai pemikiran (CoT) yang panjang, dan itu memang dilakukannya dengan baik, tetapi kemampuan pemanggilan alatnya hampir tidak ada, dan kemampuan mengelola lebih dari 1–2 pesan juga nyaris tidak ada
  Lihat saja peringatan di bagian paling atas https://huggingface.co/WeiboAI/VibeThinker-3B
- Sudah beberapa waktu saya terpikat dengan ide ini, dan keluarga Qwen yang mendistilasi penalaran Opus juga bekerja cukup baik
  Menurut saya, garis depan berikutnya adalah mengoptimalkan model agar lebih cakap dengan perangkat keras yang lebih sedikit
  Akan lebih menarik lagi jika pembelajaran waktu nyata juga menjadi mungkin
Dengan munculnya terobosan model kecil tapi kuat, ini terlihat seperti mulai melampaui daya tembak modal murni dari para penyedia model mutakhir
Saya ingin mendukung pihak yang kecil, tetapi rasanya masih terlalu dini untuk menyimpulkan
Di sisi lain, bisa juga benchmark saat ini belum cukup efisien untuk menangkap keberhasilan alur kerja pengembang yang sebenarnya
- Sepertinya orang-orang akan terus dibuat takjub oleh kemampuan model kecil ke depannya
  Hanya saja, kalau diajak berdialog, model ini kemungkinan besar akan gagal dan kehilangan konsistensi
  Sebaliknya, kemampuan model ini untuk bernalar dan menyelesaikan soal matematika memang sangat bagus
- Beberapa hari lalu saya mulai menjalankan qwen3.6:35b di desktop Framework, dan cukup mengesankan
  Berjalan dengan baik, dan mengingatkan saya pada model Claude pertama yang pernah saya pakai
  Ini model lokal pertama untuk agen coding yang pernah saya coba dan benar-benar terasa layak dipakai, jadi saya sangat antusias
- Rasanya optimisasi baru saja dimulai
Agar model apa pun berguna, ia memerlukan tingkat kecerdasan dasar bahkan untuk tugas yang sempit
Bisakah Anda mengajari anak 5 tahun menyetir? Bagaimana dengan 10 tahun? 12 tahun?
Untuk menyetir, seseorang harus bisa membaca, menilai kondisi jalan yang licin atau hujan, dan mengantisipasi anak yang berlari mengejar bola
Manusia biasanya memperoleh pengetahuan dasar seperti ini pada pertengahan masa remaja
Bahkan model kecil pun memerlukan tingkat pengetahuan dasar tertentu agar bisa benar-benar baik, meskipun hanya di domain yang tampak sempit
Mungkin tidak perlu sampai semua pengetahuan langka milik model frontier, tetapi kemungkinan ada baseline yang lebih tinggi daripada dugaan awal
- Sama sekali tidak benar bahwa “untuk menyetir, seseorang harus bisa membaca”
  Mungkin Anda perlu bisa membaca untuk lulus ujian SIM, tetapi di seluruh dunia ada banyak orang buta huruf yang tetap bisa menyetir dengan baik
  Ada alasan mengapa rambu jalan umum dibuat agar bisa dikenali hanya dari bentuk dan warnanya
- Agak aneh melihat perilaku manusia yang mendasar direduksi seperti game komputer berbasis teks saja
  Menyetir sendiri terutama bergantung pada memori otot untuk mengendalikan mobil, dan karena itu orang yang sering menyetir bisa bergerak hampir seperti autopilot saat perjalanan jauh sambil memikirkan hal yang sama sekali lain
  Ini juga bentuk pengetahuan, tetapi hanya diperoleh melalui pengulangan
  Tentu saja, untuk menyetir di tengah lalu lintas diperlukan jauh lebih banyak hal, seperti pemahaman dasar aturan lalu lintas, tetapi sebagian besar menyetir adalah memori otot, pemahaman kendaraan, dan prediksi atas apa yang akan terjadi berikutnya
  Primata unggul dalam hal seperti ini karena berevolusi selama jutaan tahun dengan menggunakan tubuh mereka dan melihat hasilnya
  Pernah ada GIF orangutan yang mengendarai mobil golf, meski tidak jelas seberapa nyata itu
  Akan lebih membantu jika model dipandang sebagai alat dengan kemampuan tertentu di domain tertentu, bukan sebagai manusia tiruan masa depan
  Sama seperti tidak masuk akal meminta Opus 4.8 menyetir mobil, tidak masuk akal juga mengharapkan model gambar kecil untuk perangkat edge menulis novel
  Model harus dilihat sebagai alat yang dibuat untuk kegunaan tertentu
- Topik ini tampaknya akan menarik jika dilihat sebagai penelitian formal
  Menurut saya hambatan nyatanya adalah a) kemampuan menilai, b) refleks fisik dan tingkat kekuatan
  Saat kecil pun saya sudah tahu tentang es, salju, dan hujan
  Saya bersepeda sepanjang empat musim, dan di salju atau medan basah, terutama saat pergantian musim, saya kurang percaya diri dalam mengendalikan sepeda
  Pengalaman itu berlanjut menjadi proses belajar menyetir di musim dingin Kanada utara, dan saya menerapkan pelajaran yang sama saat mengemudi
  Dalam lingkungan tanpa konsekuensi, saya melihat anak-anak mengendalikan simulator nyata atau simulasi mengemudi dalam video game dengan presisi yang mengejutkan
  Kadang anak usia 9–11 tahun bermain simulasi dan game dengan jauh lebih percaya diri daripada pengemudi dewasa
  Anak-anak tahu bahwa simulasi tidak punya konsekuensi, dan tanpa motivasi tambahan mereka bertindak sesuai itu
  Sebaliknya, pada orang dewasa yang rutin menyetir, memori otot dan prasangka mendominasi pengambilan keputusan bahkan saat bermain game
  Saya penasaran berapa banyak pelatihan dan paparan yang dibutuhkan agar anak-anak bisa mengatasi ketidakmampuan mereka memahami batas nyata dan konsekuensi nyata dari menyetir dan kesalahan saat menyetir; dan sebaliknya, berapa banyak yang dibutuhkan agar pengemudi terampil tetapi pemula dalam game berhenti menerapkan pengalaman dunia nyata mereka ke simulasi tanpa konsekuensi
- Usia 10 tahun jelas memungkinkan, dan usia 5 tahun pun nyaris memungkinkan meski tidak realistis
  Kemampuan membaca tidak diperlukan untuk mengendarai mobil
  Namun menyetir di jalan bersama orang lain adalah cerita yang sama sekali berbeda
- Untuk menyetir dengan benar, Anda juga harus menyeimbangkan trade-off eksplorasi-eksploitasi
  Anak usia tiga tahun kemungkinan akan terlalu banyak mengeksplorasi dalam situasi di mana kesalahan berbahaya
  Ini bukan hanya soal pengetahuan, tetapi juga memerlukan sistem kontrol yang berkembang bersama korteks prefrontal
  Model bahasa besar masih belum mampu melakukan kontrol seperti ini dalam kadar besar
Perlu dicatat bahwa hasil ini khusus Python
Dalam bahasa lain, performanya kemungkinan tidak akan sebaik ini
Menyenangkan melihat semakin banyak model bahasa kecil yang terspesialisasi per domain
Model Mixture of Experts (MoE) yang terspesialisasi untuk pemrograman mungkin bisa bekerja baik lintas banyak bahasa
- Jika model ini menulis Python yang benar-benar berfungsi tanpa berpura-pura jadi programmer Java dan memenuhi kode dengan class serta accessor, itu saja sudah lebih baik daripada Opus
- Ada banyak kebingungan tentang apa yang sebenarnya menjadi fokus model ini
  Model ini adalah pakar murah untuk tugas penalaran terverifikasi di dunia tertutup, seperti matematika dan soal coding mandiri
  “Dunia tertutup” berarti informasi yang dibutuhkan sudah ada di dalam konteks
  Model ini bukan agen penggunaan alat yang menemukan konteks yang hilang
  “Terverifikasi” berarti masalahnya sulit dijawab, tetapi mudah diperiksa
  Karena itu model ini tidak cocok untuk riset terbuka, tugas agen yang menangani seluruh repositori, tanya jawab faktual, atau pembuatan SVG
  Model ini lebih dekat ke modul penalaran kecil untuk masalah dengan batas yang jelas
Hal menarik dari model sekecil ini adalah tampaknya ia bisa dimuat ke satu chip Taalas
HC1 juga sudah menjalankan model Llama 3.1 8B
Kita sudah sampai pada titik di mana penalaran yang lumayan bagus bisa dijalankan di ASIC, dan itu pun dengan kecepatan luar biasa
- Akan luar biasa jika model 8B yang sangat kuat dalam meningkatkan output melalui pemikiran bisa dijalankan di Taalas pada 16K token per detik
Saya mencoba model ini sebagai pengganti GPT-5 nano untuk review keamanan source code, dan sejauh ini cukup berhasil
Berjalan dengan vLLM pada RTX 3090 24GB VRAM
Seperti tertulis di model card, output terstruktur memang kurang bagus, tetapi saya mengakalinya di test harness saya
- Apakah tidak bisa memaksakan output terstruktur dengan constrained generation?
- Penasaran bagaimana Anda mengakalinya
Saya mencoba membuat pelican SVG klasik, tetapi hasilnya gagal total karena hanya menampilkan persegi dan lingkaran hitam
- Ini tampaknya hasil yang bisa diprediksi
  Intinya terlihat bahwa pengetahuan seperti “pelikan punya sayap” dikurangi, sambil tetap mempertahankan kemampuan penalaran inti
  “Temuan ini mendukung hipotesis kompresi-cakupan parameter. Hipotesis ini menyatakan bahwa penalaran yang dapat diverifikasi bisa dikompresi ke dalam inti penalaran kecil, tetapi pengetahuan domain terbuka dan kemampuan umum memerlukan cakupan parameter yang luas atas fakta, konsep, dan skenario long-tail.”
- Coba lagi, tetapi jelaskan dengan hati-hati apa itu sepeda dan pelikan, serta bagaimana pelikan duduk di atas sepeda
  Lalu berikan tag SVG dan referensi dokumen yang ingin dipakai
  Hasil yang saya dapat ada di sini: https://9ol.es/tmp/pelican.png
  Prompt-nya ada di https://9ol.es/tmp/prompt_pelican.txt
  Model yang dipakai adalah prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
- Bukankah ini model untuk penalaran, bukan untuk membuat seni?
Saya masih belum bisa mempercayai evaluasi dan benchmark
Bagaimana kita bisa membuktikan bahwa dataset uji itu benar-benar berisi contoh yang belum dipublikasikan?
Menurut saya, satu-satunya cara membuktikan bahwa model-model ini memang sebagus klaimnya adalah menunggu apakah mereka benar-benar diadopsi di dunia nyata
- Untuk membuktikan itu, pada akhirnya kita harus menyelesaikan masalah kotak hitam, yaitu bergerak lebih dekat ke tujuan transparansi
  Jika harus mengimplementasikan sesuatu seperti mesin penalaran, maka kita perlu merancang dan mengimplementasikan arsitektur terbaik yang sesuai, lalu mengujinya
Sangat menyenangkan melihat model bahasa kecil yang kompeten seperti ini bermunculan
Namun, di Hugging Face tertulis seperti ini:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Jadi model ini tidak bisa langsung dipasang ke coding harness seperti pi.dev
Lebih baik dalam bernalar daripada Opus 4.5?
Prompt: “Jika A pergi ke B, lalu B melanjutkan ke C, apakah A bisa mengirim sesuatu ke C?”
Responsnya seperti ini:
“Ini harus ditafsirkan dengan cara yang paling tepat. Kalimat ini bisa jadi teka-teki tentang konsep mengirim sesuatu, misalnya mengoper bola, dan tentang relasi.
Skenario: A memberi sesuatu kepada B, lalu B meneruskannya kepada C.
Pertanyaan: apakah A juga bisa memberikan hal yang sama kepada C?
Jawaban: itu hanya mungkin jika A bisa mendapatkan salinan kedua. Misalnya jika benda itu diduplikasi. Jika tidak, setelah menyerahkannya ke B, A tidak lagi memilikinya, jadi tanpa salinan A tidak bisa ‘mengirimkannya’.”
Selain itu masih ada banyak penjelasan dan “skenario” yang tidak perlu dan kurang masuk akal
- Saya menjalankan kueri yang sama, dan memang output-nya sangat panjang, tetapi tampaknya model ini benar-benar mencoba menyelesaikan ambiguitas dalam kalimat lewat penalaran
  Meski begitu, jawabannya tetap benar
  Dan jika membandingkan jumlah operasi floating-point yang dipakai untuk sampai ke jawaban dengan Opus, menurut saya itu tetap keuntungan bersih
  Firasa saya, model seukuran Opus punya jalan pintas yang sudah terenkode di dalam model untuk menangani kasus ambigu seperti ini, sedangkan model ini tampaknya belajar semacam program untuk menalar kasus batas secara spontan
  Ini terasa mirip perbedaan antara kecerdasan yang terkristalisasi dan kecerdasan yang cair
  Model frontier seperti mengingat probabilitas, sedangkan VibeThinker terasa seperti menghitungnya saat itu juga
- Di penjelasan quality control ada bagian seperti ini:
  “Kontrol kualitas multi-tahap.”
  “Penyaringan kualitas kueri berbasis model bahasa besar. Kami menggunakan model bahasa besar berkinerja tinggi untuk menilai kualitas kueri, dan menyaring sampel yang penjelasannya tidak lengkap, kondisinya tidak masuk akal, logikanya salah, atau tidak dapat secara efektif mengevaluasi poin pengetahuan yang dituju.”
- Sebagai manusia pun saya tidak tahu bagaimana prompt ini harus ditafsirkan
- Jika A pergi ke B lalu B pergi lagi ke C, apakah C mengenal A?

VibeThinker-3B: Model 3B yang melampaui performa penalaran Opus 4.5 dengan SFT+GRPO

Eksperimen yang mendorong penalaran terverifikasi dengan model 3B

Rentang performa yang terlihat pada evaluasi

Bacaan terkait

1 komentar

Komentar Hacker News