DeepSeekMath-V2 Dirilis - Menuju Penalaran Matematis yang Dapat Diverifikasi Sendiri
(huggingface.co)- Bertujuan meningkatkan kemampuan penalaran matematis model bahasa besar, model ini memperkuat kemampuan verifikasi proses penalaran melampaui sekadar akurasi jawaban akhir
- Memperbaiki keterbatasan pendekatan berbasis pembelajaran penguatan yang berfokus pada imbalan jawaban akhir, dengan memperkenalkan mekanisme self-verification
- Untuk masalah seperti pembuktian teorema (theorem proving) yang memerlukan pengembangan logika langkah demi langkah, model generatif dirancang agar dapat menemukan dan memperbaiki kesalahannya sendiri
- Dengan memanfaatkan verifier sebagai model imbalan dan menskalakan komputasi verifikasi, data pembuktian sulit diberi label secara otomatis untuk meningkatkan performa secara berkelanjutan
- Mencatat skor tingkat tertinggi di IMO 2025, CMO 2024, Putnam 2024, dan membuktikan kelayakan AI matematika dengan self-verification
1. Pendahuluan (Introduction)
- Model bahasa besar (LLM) telah mencapai kemajuan besar dalam penalaran matematis, yang berperan sebagai batu uji penting dalam riset AI
- Melalui pembelajaran penguatan berbasis imbalan jawaban benar, model mencapai performa papan atas dalam kompetisi seperti AIME dan HMMT hanya dalam waktu satu tahun
- Namun, pendekatan yang hanya meningkatkan akurasi jawaban akhir memiliki keterbatasan
- Walaupun jawabannya benar, validitas proses penalaran tidak terjamin, dan pendekatan ini tidak dapat diterapkan pada masalah seperti pembuktian teorema yang memerlukan pengembangan logika langkah demi langkah
- Untuk mengatasi hal ini, diperkenalkan konsep self-verification agar model dapat menilai kelengkapan dan ketelitian penalaran
- Khususnya pada masalah terbuka (open problems) yang jawabannya belum diketahui, hal ini diajukan sebagai elemen penting untuk penskalaan komputasi saat pengujian
- Tim peneliti melatih verifier berbasis LLM yang akurat dan andal, lalu menggunakannya sebagai model imbalan untuk melatih generator pembuktian (generator)
- Dengan demikian, generator didorong untuk menemukan dan memperbaiki kesalahan dalam pembuktiannya sendiri
- Seiring meningkatnya performa generator, tingkat kesulitan verifikasi juga naik, sehingga dilakukan penskalaan komputasi verifikasi (scale verification compute) untuk memberi label otomatis pada pembuktian baru yang sulit
- Melalui cara ini, performa verifier terus ditingkatkan
- Model hasilnya, DeepSeekMath-V2, mencatat tingkat medali emas di IMO 2025 dan CMO 2024, serta 118/120 poin di Putnam 2024
- Hasil ini menunjukkan bahwa penalaran matematis dengan self-verification adalah arah penelitian yang layak diwujudkan
2. Hasil Evaluasi (Evaluation Results)
- Evaluasi menggunakan IMO-ProofBench yang dikembangkan oleh tim DeepThink IMO-Gold dari DeepMind serta kompetisi matematika terbaru (IMO 2025, CMO 2024, Putnam 2024)
- Angka spesifik atau hasil rinci tidak disebutkan dalam isi utama
3. Struktur dan Dasar Model (Model Architecture)
- DeepSeekMath-V2 dibangun berdasarkan model DeepSeek-V3.2-Exp-Base
- Untuk dukungan terkait inferensi, lihat repositori GitHub DeepSeek-V3.2-Exp
4. Lisensi (License)
- Model dan bobot didistribusikan di bawah Apache License 2.0
5. Informasi Sitasi (Citation)
- Penulis riset dan informasi makalah dicantumkan, dengan judul
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. Informasi Lainnya
- Jumlah unduhan selama satu bulan terakhir: 4.434 kali
- Saat menyusun pohon model, model dasar membentuk loop referensi diri, sehingga ditandai tidak dapat membuat pohon
1 komentar
Komentar Hacker News
Model yang dirilis kali ini membuka bobotnya sebagai open source dengan lisensi Apache 2.0
Model peraih medali emas IMO dari OpenAI maupun DeepMind masih tetap tertutup
Diskusi sebelumnya ada di tautan ini
Sangat mengesankan melihat model open-weight cepat menyusul di domain khusus seperti matematika atau penalaran
Saya penasaran apakah ada yang sudah mencobanya pada pengujian logika kompleks atau terkait coding. Model dengan performa matematika yang baik sering kali juga kuat dalam debugging atau pembuatan algoritma
Saya rasa kita juga perlu punya pandangan skeptis terhadap hasil model ini
Mereka menyatakan bahwa soal-soalnya dilatih langsung dari kumpulan internet, tetapi tidak menyebutkan apakah ada pembersihan kontaminasi benchmark atau pengecualian soal tahun 2024/2025
OpenAI dan Google menguji model eksperimental mereka dalam kondisi tanpa akses lebih dulu ke soal tahun 2025
Saya penasaran kenapa model peraih medali emas milik OpenAI masih belum dirilis
Penting untuk dicatat bahwa model ini bukan model umum. Model Google dan OpenAI menggunakan model umum
Saya penasaran bagaimana cara menjalankan model seperti ini di rumah
Apakah mungkin dengan basis CPU dan RAM sekitar 1TB?
Ada kecurigaan apakah model ini mungkin tidak didistilasi langsung dari keluaran OpenAI atau Google
Saya penasaran apakah ada rencana agar model ini hadir di OpenRouter
Jika OpenAI memasukkan iklan ke ChatGPT, bukankah orang-orang akan langsung pindah ke model lain?