- Bertujuan meningkatkan kemampuan penalaran matematis model bahasa besar, model ini memperkuat kemampuan verifikasi proses penalaran melampaui sekadar akurasi jawaban akhir
- Memperbaiki keterbatasan pendekatan berbasis pembelajaran penguatan yang berfokus pada imbalan jawaban akhir, dengan memperkenalkan mekanisme self-verification
- Untuk masalah seperti pembuktian teorema (theorem proving) yang memerlukan pengembangan logika langkah demi langkah, model generatif dirancang agar dapat menemukan dan memperbaiki kesalahannya sendiri
- Dengan memanfaatkan verifier sebagai model imbalan dan menskalakan komputasi verifikasi, data pembuktian sulit diberi label secara otomatis untuk meningkatkan performa secara berkelanjutan
- Mencatat skor tingkat tertinggi di IMO 2025, CMO 2024, Putnam 2024, dan membuktikan kelayakan AI matematika dengan self-verification
1. Pendahuluan (Introduction)
- Model bahasa besar (LLM) telah mencapai kemajuan besar dalam penalaran matematis, yang berperan sebagai batu uji penting dalam riset AI
- Melalui pembelajaran penguatan berbasis imbalan jawaban benar, model mencapai performa papan atas dalam kompetisi seperti AIME dan HMMT hanya dalam waktu satu tahun
- Namun, pendekatan yang hanya meningkatkan akurasi jawaban akhir memiliki keterbatasan
- Walaupun jawabannya benar, validitas proses penalaran tidak terjamin, dan pendekatan ini tidak dapat diterapkan pada masalah seperti pembuktian teorema yang memerlukan pengembangan logika langkah demi langkah
- Untuk mengatasi hal ini, diperkenalkan konsep self-verification agar model dapat menilai kelengkapan dan ketelitian penalaran
- Khususnya pada masalah terbuka (open problems) yang jawabannya belum diketahui, hal ini diajukan sebagai elemen penting untuk penskalaan komputasi saat pengujian
- Tim peneliti melatih verifier berbasis LLM yang akurat dan andal, lalu menggunakannya sebagai model imbalan untuk melatih generator pembuktian (generator)
- Dengan demikian, generator didorong untuk menemukan dan memperbaiki kesalahan dalam pembuktiannya sendiri
- Seiring meningkatnya performa generator, tingkat kesulitan verifikasi juga naik, sehingga dilakukan penskalaan komputasi verifikasi (scale verification compute) untuk memberi label otomatis pada pembuktian baru yang sulit
- Melalui cara ini, performa verifier terus ditingkatkan
- Model hasilnya, DeepSeekMath-V2, mencatat tingkat medali emas di IMO 2025 dan CMO 2024, serta 118/120 poin di Putnam 2024
- Hasil ini menunjukkan bahwa penalaran matematis dengan self-verification adalah arah penelitian yang layak diwujudkan
2. Hasil Evaluasi (Evaluation Results)
- Evaluasi menggunakan IMO-ProofBench yang dikembangkan oleh tim DeepThink IMO-Gold dari DeepMind serta kompetisi matematika terbaru (IMO 2025, CMO 2024, Putnam 2024)
- Angka spesifik atau hasil rinci tidak disebutkan dalam isi utama
3. Struktur dan Dasar Model (Model Architecture)
- DeepSeekMath-V2 dibangun berdasarkan model DeepSeek-V3.2-Exp-Base
- Untuk dukungan terkait inferensi, lihat repositori GitHub DeepSeek-V3.2-Exp
4. Lisensi (License)
- Model dan bobot didistribusikan di bawah Apache License 2.0
5. Informasi Sitasi (Citation)
- Penulis riset dan informasi makalah dicantumkan, dengan judul
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. Informasi Lainnya
- Jumlah unduhan selama satu bulan terakhir: 4.434 kali
- Saat menyusun pohon model, model dasar membentuk loop referensi diri, sehingga ditandai tidak dapat membuat pohon
Belum ada komentar.