2 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • VibeThinker-3B adalah model dense kecil yang menguji sejauh mana penalaran yang dapat diverifikasi bisa dikompresi hanya dengan 3B parameter
  • Pipeline pelatihannya menggabungkan post-training Spectrum-to-Signal dengan curriculum supervised fine-tuning, reinforcement learning multi-domain, dan self-distillation offline
  • Mencatat 94.3 pada AIME26 dan 97.1 saat CLR diterapkan; juga dilaporkan memperoleh LiveCodeBench v6 Pass@1 80.2 dan acceptance rate 96.1% pada kontes LeetCode terbaru yang belum dipublikasikan
  • Meski masuk ke kisaran performa yang setara atau lebih tinggi dibanding model flagship yang jauh lebih besar seperti DeepSeek V3.2, GLM-5, dan Gemini 3 Pro, model ini tetap mempertahankan kontrol kepatuhan instruksi yang ketat dengan skor IFEval 93.4
  • Parametric Compression-Coverage Hypothesis menyatakan bahwa penalaran yang dapat diverifikasi dapat dikompresi ke reasoning core kecil, tetapi pengetahuan terbuka dan kapabilitas umum tetap memerlukan cakupan parameter yang lebih luas

Eksperimen yang mendorong penalaran terverifikasi dengan model 3B

  • VibeThinker-3B adalah model dense kecil berskala 3B parameter
  • Tujuannya adalah memeriksa seberapa jauh performa penalaran yang dapat diverifikasi bisa didorong bahkan dalam rezim model kecil yang ketat
  • Post-training disusun di atas paradigma Spectrum-to-Signal
    • supervised fine-tuning berbasis kurikulum
    • reinforcement learning multi-domain
    • self-distillation offline
  • Hasil kali ini merupakan kelanjutan yang memperluas pekerjaan 1.5B sebelumnya

Rentang performa yang terlihat pada evaluasi

  • Menunjukkan performa kelas frontier pada evaluasi matematika, coding, dan instruction following
    • AIME26: 94.3
    • AIME26 + CLR: 97.1
    • LiveCodeBench v6: Pass@1 80.2
    • kontes LeetCode terbaru yang belum dipublikasikan: acceptance rate 96.1%
    • IFEval: 93.4
  • CLR adalah singkatan dari Claim-Level Reliability Assessment, yaitu strategi test-time scaling di tingkat klaim
  • Pembanding pada Figure 1 mencakup Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5, dan Claude Opus 4.5
  • Berdasarkan hasil yang dilaporkan, VibeThinker-3B dapat masuk ke kisaran performa yang sama atau lebih tinggi daripada model flagship yang jauh lebih besar seperti DeepSeek V3.2, GLM-5, dan Gemini 3 Pro
  • Dalam perbandingan skala parameter, VibeThinker-3B ditandai sebagai 3B
    • Qwen3.5-4B: 4B
    • GPT-OSS-20B: 20B
    • MiniMax M2.7: 229B
    • DeepSeek V3.2: 671B
    • GLM-5: 744B
    • Kimi K2.5: 1T
  • Parametric Compression-Coverage Hypothesis memandang compact model bukan sekadar alternatif untuk efisiensi deployment, melainkan jalur pelengkap untuk mencapai performa kelas frontier dalam wilayah kapabilitas yang padat parameter

1 komentar

 
GN⁺ 5 jam lalu
Komentar Hacker News
  • Saya penasaran apakah ini pada dasarnya hanyalah model kecil yang dilatih agar pandai bernalar
    Mirip orang cerdas yang mungkin tidak tahu topik tertentu, tetapi kalau diberi alat akan rajin menelitinya
    Akan sangat bagus jika, alih-alih membuat model mempelajari semua pengetahuan, kita cukup melatihnya cara belajar sehingga dengan perangkat kecil seperti Pi Zero dan koneksi internet saja ia bisa mencari tahu sendiri

    • Saya sudah lama memimpikan hal seperti ini
      Daripada mengenkodekan semua pengetahuan ke dalam parameter, saya pernah membayangkan bagaimana kalau membuat model yang, dengan ukuran yang sama, memakai sebagian besar kapasitasnya untuk penalaran
      Cukup beri kemampuan menjelajah internet, lalu biarkan ia mencari spesifikasi bahasa, dokumentasi, dan praktik terbaik
      Saya tidak mengerti kenapa agen coding saya harus tahu populasi New York, resep cheesecake, atau umur burung unta
      Beri saja pengetahuan minimum yang diperlukan untuk berpikir dan bernalar, lalu biarkan sisanya ia cari sendiri
      Hanya saja, sayangnya model bahasa besar saat ini pada akhirnya tetap prediksi token, jadi tidak bekerja seperti itu
    • Saya justru lebih dekat ke pandangan sebaliknya
      Penalaran adalah produk sampingan yang muncul dari pelatihan atas seluruh pengetahuan, dan dalam bentuk ini pun model tidak benar-benar “mengetahui” sesuatu, melainkan hanya menghasilkan token
      Tanpa dilatih pada dataset besar yang berisi banyak kata dan hubungan yang masuk akal di antaranya, model tidak bisa membentuk hubungan yang tepat antara kata dan kalimat, sehingga juga tidak bisa bernalar
      Kalau Anda melatih model kecil dengan dataset yang sangat kecil, Anda akan melihat keluaran yang ngawur
      Mungkin menarik untuk mengoptimalkan dataset agar dengan data minimum bisa menghasilkan keluaran maksimum, tetapi bagi perusahaan yang ingin membuat model mutakhir, secara ekonomi jauh lebih masuk akal menambah beberapa GPU daripada mengerjakan upaya seperti itu
    • Kita mungkin bisa melatih model agar cukup baik menangani logika Boolean, logika modal, dan matematika, tetapi ada jurang besar sebelum itu bisa disebut “memikirkan benda-benda”
      Misalnya, bahkan pertanyaan yang sangat dasar seperti memasukkan bola ke dalam cangkir, membalik cangkir dan meletakkannya di atas meja, lalu mengangkat cangkir dan memasukkannya ke dalam kotak, membutuhkan pengetahuan yang tidak dinyatakan eksplisit dalam soal, terutama tentang gravitasi
      Jika kita mencoba mendefinisikan semua istilah secara ketat, kita akan cepat tenggelam dalam rawa kompleksitas
      Untuk memahami instruksi, diperlukan pengetahuan dasar tentang benda-benda, dan jika hanya tahu cara bernalar, model tidak punya gambaran tentang apa yang harus dicapai
      Ada pemutusan yang cukup jelas antara gudang teks raksasa tempat model dilatih dan kemampuan untuk mempertimbangkan suatu topik secara kokoh
      Saya juga penasaran apakah jalur itu bisa diarahkan lewat urutan pelatihan
      Misalnya, apakah akan sangat berbeda jika model terlebih dulu mempelajari literasi dasar dari TinyStories, lalu teks matematika dan filsafat, kemudian teks psikologi dan sosiologi, dan terakhir data besar yang juga mencakup percakapan, tulisan bernada marah, kode, dan novel, dibanding model yang lebih dulu dilatih pada akting, penulisan kreatif, dan novel fantasi lalu diberi dataset besar akhir yang sama
      Saya juga penasaran seberapa besar kemampuan saat ini memengaruhi cara model mengontekstualisasikan data pelatihan baru
    • Kenyataannya justru kebalikannya
      Model ini dilatih untuk menyelesaikan masalah dengan menghasilkan rantai pemikiran (CoT) yang panjang, dan itu memang dilakukannya dengan baik, tetapi kemampuan pemanggilan alatnya hampir tidak ada, dan kemampuan mengelola lebih dari 1–2 pesan juga nyaris tidak ada
      Lihat saja peringatan di bagian paling atas https://huggingface.co/WeiboAI/VibeThinker-3B
    • Sudah beberapa waktu saya terpikat dengan ide ini, dan keluarga Qwen yang mendistilasi penalaran Opus juga bekerja cukup baik
      Menurut saya, garis depan berikutnya adalah mengoptimalkan model agar lebih cakap dengan perangkat keras yang lebih sedikit
      Akan lebih menarik lagi jika pembelajaran waktu nyata juga menjadi mungkin
  • Dengan munculnya terobosan model kecil tapi kuat, ini terlihat seperti mulai melampaui daya tembak modal murni dari para penyedia model mutakhir
    Saya ingin mendukung pihak yang kecil, tetapi rasanya masih terlalu dini untuk menyimpulkan
    Di sisi lain, bisa juga benchmark saat ini belum cukup efisien untuk menangkap keberhasilan alur kerja pengembang yang sebenarnya

    • Sepertinya orang-orang akan terus dibuat takjub oleh kemampuan model kecil ke depannya
      Hanya saja, kalau diajak berdialog, model ini kemungkinan besar akan gagal dan kehilangan konsistensi
      Sebaliknya, kemampuan model ini untuk bernalar dan menyelesaikan soal matematika memang sangat bagus
    • Beberapa hari lalu saya mulai menjalankan qwen3.6:35b di desktop Framework, dan cukup mengesankan
      Berjalan dengan baik, dan mengingatkan saya pada model Claude pertama yang pernah saya pakai
      Ini model lokal pertama untuk agen coding yang pernah saya coba dan benar-benar terasa layak dipakai, jadi saya sangat antusias
    • Rasanya optimisasi baru saja dimulai
  • Agar model apa pun berguna, ia memerlukan tingkat kecerdasan dasar bahkan untuk tugas yang sempit
    Bisakah Anda mengajari anak 5 tahun menyetir? Bagaimana dengan 10 tahun? 12 tahun?
    Untuk menyetir, seseorang harus bisa membaca, menilai kondisi jalan yang licin atau hujan, dan mengantisipasi anak yang berlari mengejar bola
    Manusia biasanya memperoleh pengetahuan dasar seperti ini pada pertengahan masa remaja
    Bahkan model kecil pun memerlukan tingkat pengetahuan dasar tertentu agar bisa benar-benar baik, meskipun hanya di domain yang tampak sempit
    Mungkin tidak perlu sampai semua pengetahuan langka milik model frontier, tetapi kemungkinan ada baseline yang lebih tinggi daripada dugaan awal

    • Sama sekali tidak benar bahwa “untuk menyetir, seseorang harus bisa membaca”
      Mungkin Anda perlu bisa membaca untuk lulus ujian SIM, tetapi di seluruh dunia ada banyak orang buta huruf yang tetap bisa menyetir dengan baik
      Ada alasan mengapa rambu jalan umum dibuat agar bisa dikenali hanya dari bentuk dan warnanya
    • Agak aneh melihat perilaku manusia yang mendasar direduksi seperti game komputer berbasis teks saja
      Menyetir sendiri terutama bergantung pada memori otot untuk mengendalikan mobil, dan karena itu orang yang sering menyetir bisa bergerak hampir seperti autopilot saat perjalanan jauh sambil memikirkan hal yang sama sekali lain
      Ini juga bentuk pengetahuan, tetapi hanya diperoleh melalui pengulangan
      Tentu saja, untuk menyetir di tengah lalu lintas diperlukan jauh lebih banyak hal, seperti pemahaman dasar aturan lalu lintas, tetapi sebagian besar menyetir adalah memori otot, pemahaman kendaraan, dan prediksi atas apa yang akan terjadi berikutnya
      Primata unggul dalam hal seperti ini karena berevolusi selama jutaan tahun dengan menggunakan tubuh mereka dan melihat hasilnya
      Pernah ada GIF orangutan yang mengendarai mobil golf, meski tidak jelas seberapa nyata itu
      Akan lebih membantu jika model dipandang sebagai alat dengan kemampuan tertentu di domain tertentu, bukan sebagai manusia tiruan masa depan
      Sama seperti tidak masuk akal meminta Opus 4.8 menyetir mobil, tidak masuk akal juga mengharapkan model gambar kecil untuk perangkat edge menulis novel
      Model harus dilihat sebagai alat yang dibuat untuk kegunaan tertentu
    • Topik ini tampaknya akan menarik jika dilihat sebagai penelitian formal
      Menurut saya hambatan nyatanya adalah a) kemampuan menilai, b) refleks fisik dan tingkat kekuatan
      Saat kecil pun saya sudah tahu tentang es, salju, dan hujan
      Saya bersepeda sepanjang empat musim, dan di salju atau medan basah, terutama saat pergantian musim, saya kurang percaya diri dalam mengendalikan sepeda
      Pengalaman itu berlanjut menjadi proses belajar menyetir di musim dingin Kanada utara, dan saya menerapkan pelajaran yang sama saat mengemudi
      Dalam lingkungan tanpa konsekuensi, saya melihat anak-anak mengendalikan simulator nyata atau simulasi mengemudi dalam video game dengan presisi yang mengejutkan
      Kadang anak usia 9–11 tahun bermain simulasi dan game dengan jauh lebih percaya diri daripada pengemudi dewasa
      Anak-anak tahu bahwa simulasi tidak punya konsekuensi, dan tanpa motivasi tambahan mereka bertindak sesuai itu
      Sebaliknya, pada orang dewasa yang rutin menyetir, memori otot dan prasangka mendominasi pengambilan keputusan bahkan saat bermain game
      Saya penasaran berapa banyak pelatihan dan paparan yang dibutuhkan agar anak-anak bisa mengatasi ketidakmampuan mereka memahami batas nyata dan konsekuensi nyata dari menyetir dan kesalahan saat menyetir; dan sebaliknya, berapa banyak yang dibutuhkan agar pengemudi terampil tetapi pemula dalam game berhenti menerapkan pengalaman dunia nyata mereka ke simulasi tanpa konsekuensi
    • Usia 10 tahun jelas memungkinkan, dan usia 5 tahun pun nyaris memungkinkan meski tidak realistis
      Kemampuan membaca tidak diperlukan untuk mengendarai mobil
      Namun menyetir di jalan bersama orang lain adalah cerita yang sama sekali berbeda
    • Untuk menyetir dengan benar, Anda juga harus menyeimbangkan trade-off eksplorasi-eksploitasi
      Anak usia tiga tahun kemungkinan akan terlalu banyak mengeksplorasi dalam situasi di mana kesalahan berbahaya
      Ini bukan hanya soal pengetahuan, tetapi juga memerlukan sistem kontrol yang berkembang bersama korteks prefrontal
      Model bahasa besar masih belum mampu melakukan kontrol seperti ini dalam kadar besar
  • Perlu dicatat bahwa hasil ini khusus Python
    Dalam bahasa lain, performanya kemungkinan tidak akan sebaik ini
    Menyenangkan melihat semakin banyak model bahasa kecil yang terspesialisasi per domain
    Model Mixture of Experts (MoE) yang terspesialisasi untuk pemrograman mungkin bisa bekerja baik lintas banyak bahasa

    • Jika model ini menulis Python yang benar-benar berfungsi tanpa berpura-pura jadi programmer Java dan memenuhi kode dengan class serta accessor, itu saja sudah lebih baik daripada Opus
    • Ada banyak kebingungan tentang apa yang sebenarnya menjadi fokus model ini
      Model ini adalah pakar murah untuk tugas penalaran terverifikasi di dunia tertutup, seperti matematika dan soal coding mandiri
      “Dunia tertutup” berarti informasi yang dibutuhkan sudah ada di dalam konteks
      Model ini bukan agen penggunaan alat yang menemukan konteks yang hilang
      “Terverifikasi” berarti masalahnya sulit dijawab, tetapi mudah diperiksa
      Karena itu model ini tidak cocok untuk riset terbuka, tugas agen yang menangani seluruh repositori, tanya jawab faktual, atau pembuatan SVG
      Model ini lebih dekat ke modul penalaran kecil untuk masalah dengan batas yang jelas
  • Hal menarik dari model sekecil ini adalah tampaknya ia bisa dimuat ke satu chip Taalas
    HC1 juga sudah menjalankan model Llama 3.1 8B
    Kita sudah sampai pada titik di mana penalaran yang lumayan bagus bisa dijalankan di ASIC, dan itu pun dengan kecepatan luar biasa

    • Akan luar biasa jika model 8B yang sangat kuat dalam meningkatkan output melalui pemikiran bisa dijalankan di Taalas pada 16K token per detik
  • Saya mencoba model ini sebagai pengganti GPT-5 nano untuk review keamanan source code, dan sejauh ini cukup berhasil
    Berjalan dengan vLLM pada RTX 3090 24GB VRAM
    Seperti tertulis di model card, output terstruktur memang kurang bagus, tetapi saya mengakalinya di test harness saya

    • Apakah tidak bisa memaksakan output terstruktur dengan constrained generation?
    • Penasaran bagaimana Anda mengakalinya
  • Saya mencoba membuat pelican SVG klasik, tetapi hasilnya gagal total karena hanya menampilkan persegi dan lingkaran hitam

    • Ini tampaknya hasil yang bisa diprediksi
      Intinya terlihat bahwa pengetahuan seperti “pelikan punya sayap” dikurangi, sambil tetap mempertahankan kemampuan penalaran inti
      “Temuan ini mendukung hipotesis kompresi-cakupan parameter. Hipotesis ini menyatakan bahwa penalaran yang dapat diverifikasi bisa dikompresi ke dalam inti penalaran kecil, tetapi pengetahuan domain terbuka dan kemampuan umum memerlukan cakupan parameter yang luas atas fakta, konsep, dan skenario long-tail.”
    • Coba lagi, tetapi jelaskan dengan hati-hati apa itu sepeda dan pelikan, serta bagaimana pelikan duduk di atas sepeda
      Lalu berikan tag SVG dan referensi dokumen yang ingin dipakai
      Hasil yang saya dapat ada di sini: https://9ol.es/tmp/pelican.png
      Prompt-nya ada di https://9ol.es/tmp/prompt_pelican.txt
      Model yang dipakai adalah prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
    • Bukankah ini model untuk penalaran, bukan untuk membuat seni?
  • Saya masih belum bisa mempercayai evaluasi dan benchmark
    Bagaimana kita bisa membuktikan bahwa dataset uji itu benar-benar berisi contoh yang belum dipublikasikan?
    Menurut saya, satu-satunya cara membuktikan bahwa model-model ini memang sebagus klaimnya adalah menunggu apakah mereka benar-benar diadopsi di dunia nyata

    • Untuk membuktikan itu, pada akhirnya kita harus menyelesaikan masalah kotak hitam, yaitu bergerak lebih dekat ke tujuan transparansi
      Jika harus mengimplementasikan sesuatu seperti mesin penalaran, maka kita perlu merancang dan mengimplementasikan arsitektur terbaik yang sesuai, lalu mengujinya
  • Sangat menyenangkan melihat model bahasa kecil yang kompeten seperti ini bermunculan
    Namun, di Hugging Face tertulis seperti ini:
    “This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
    Jadi model ini tidak bisa langsung dipasang ke coding harness seperti pi.dev

  • Lebih baik dalam bernalar daripada Opus 4.5?
    Prompt: “Jika A pergi ke B, lalu B melanjutkan ke C, apakah A bisa mengirim sesuatu ke C?”
    Responsnya seperti ini:
    “Ini harus ditafsirkan dengan cara yang paling tepat. Kalimat ini bisa jadi teka-teki tentang konsep mengirim sesuatu, misalnya mengoper bola, dan tentang relasi.
    Skenario: A memberi sesuatu kepada B, lalu B meneruskannya kepada C.
    Pertanyaan: apakah A juga bisa memberikan hal yang sama kepada C?
    Jawaban: itu hanya mungkin jika A bisa mendapatkan salinan kedua. Misalnya jika benda itu diduplikasi. Jika tidak, setelah menyerahkannya ke B, A tidak lagi memilikinya, jadi tanpa salinan A tidak bisa ‘mengirimkannya’.”
    Selain itu masih ada banyak penjelasan dan “skenario” yang tidak perlu dan kurang masuk akal

    • Saya menjalankan kueri yang sama, dan memang output-nya sangat panjang, tetapi tampaknya model ini benar-benar mencoba menyelesaikan ambiguitas dalam kalimat lewat penalaran
      Meski begitu, jawabannya tetap benar
      Dan jika membandingkan jumlah operasi floating-point yang dipakai untuk sampai ke jawaban dengan Opus, menurut saya itu tetap keuntungan bersih
      Firasa saya, model seukuran Opus punya jalan pintas yang sudah terenkode di dalam model untuk menangani kasus ambigu seperti ini, sedangkan model ini tampaknya belajar semacam program untuk menalar kasus batas secara spontan
      Ini terasa mirip perbedaan antara kecerdasan yang terkristalisasi dan kecerdasan yang cair
      Model frontier seperti mengingat probabilitas, sedangkan VibeThinker terasa seperti menghitungnya saat itu juga
    • Di penjelasan quality control ada bagian seperti ini:
      “Kontrol kualitas multi-tahap.”
      “Penyaringan kualitas kueri berbasis model bahasa besar. Kami menggunakan model bahasa besar berkinerja tinggi untuk menilai kualitas kueri, dan menyaring sampel yang penjelasannya tidak lengkap, kondisinya tidak masuk akal, logikanya salah, atau tidak dapat secara efektif mengevaluasi poin pengetahuan yang dituju.”
    • Sebagai manusia pun saya tidak tahu bagaimana prompt ini harus ditafsirkan
    • Jika A pergi ke B lalu B pergi lagi ke C, apakah C mengenal A?