DeepSeekMath-V2 Dirilis - Menuju Penalaran Matematis yang Dapat Diverifikasi Sendiri

(huggingface.co)

5 poin oleh GN⁺ 2025-12-02 | 1 komentar | Bagikan ke WhatsApp

Bertujuan meningkatkan kemampuan penalaran matematis model bahasa besar, model ini memperkuat kemampuan verifikasi proses penalaran melampaui sekadar akurasi jawaban akhir
Memperbaiki keterbatasan pendekatan berbasis pembelajaran penguatan yang berfokus pada imbalan jawaban akhir, dengan memperkenalkan mekanisme self-verification
Untuk masalah seperti pembuktian teorema (theorem proving) yang memerlukan pengembangan logika langkah demi langkah, model generatif dirancang agar dapat menemukan dan memperbaiki kesalahannya sendiri
Dengan memanfaatkan verifier sebagai model imbalan dan menskalakan komputasi verifikasi, data pembuktian sulit diberi label secara otomatis untuk meningkatkan performa secara berkelanjutan
Mencatat skor tingkat tertinggi di IMO 2025, CMO 2024, Putnam 2024, dan membuktikan kelayakan AI matematika dengan self-verification

1. Pendahuluan (Introduction)

Model bahasa besar (LLM) telah mencapai kemajuan besar dalam penalaran matematis, yang berperan sebagai batu uji penting dalam riset AI
- Melalui pembelajaran penguatan berbasis imbalan jawaban benar, model mencapai performa papan atas dalam kompetisi seperti AIME dan HMMT hanya dalam waktu satu tahun
Namun, pendekatan yang hanya meningkatkan akurasi jawaban akhir memiliki keterbatasan
- Walaupun jawabannya benar, validitas proses penalaran tidak terjamin, dan pendekatan ini tidak dapat diterapkan pada masalah seperti pembuktian teorema yang memerlukan pengembangan logika langkah demi langkah
Untuk mengatasi hal ini, diperkenalkan konsep self-verification agar model dapat menilai kelengkapan dan ketelitian penalaran
- Khususnya pada masalah terbuka (open problems) yang jawabannya belum diketahui, hal ini diajukan sebagai elemen penting untuk penskalaan komputasi saat pengujian
Tim peneliti melatih verifier berbasis LLM yang akurat dan andal, lalu menggunakannya sebagai model imbalan untuk melatih generator pembuktian (generator)
- Dengan demikian, generator didorong untuk menemukan dan memperbaiki kesalahan dalam pembuktiannya sendiri
Seiring meningkatnya performa generator, tingkat kesulitan verifikasi juga naik, sehingga dilakukan penskalaan komputasi verifikasi (scale verification compute) untuk memberi label otomatis pada pembuktian baru yang sulit
- Melalui cara ini, performa verifier terus ditingkatkan
Model hasilnya, DeepSeekMath-V2, mencatat tingkat medali emas di IMO 2025 dan CMO 2024, serta 118/120 poin di Putnam 2024
- Hasil ini menunjukkan bahwa penalaran matematis dengan self-verification adalah arah penelitian yang layak diwujudkan

2. Hasil Evaluasi (Evaluation Results)

Evaluasi menggunakan IMO-ProofBench yang dikembangkan oleh tim DeepThink IMO-Gold dari DeepMind serta kompetisi matematika terbaru (IMO 2025, CMO 2024, Putnam 2024)
- Angka spesifik atau hasil rinci tidak disebutkan dalam isi utama

3. Struktur dan Dasar Model (Model Architecture)

DeepSeekMath-V2 dibangun berdasarkan model DeepSeek-V3.2-Exp-Base
- Untuk dukungan terkait inferensi, lihat repositori GitHub DeepSeek-V3.2-Exp

4. Lisensi (License)

Model dan bobot didistribusikan di bawah Apache License 2.0

5. Informasi Sitasi (Citation)

Penulis riset dan informasi makalah dicantumkan, dengan judul
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. Informasi Lainnya

Jumlah unduhan selama satu bulan terakhir: 4.434 kali
Saat menyusun pohon model, model dasar membentuk loop referensi diri, sehingga ditandai tidak dapat membuat pohon

1 komentar

GN⁺ 2025-12-02

Komentar Hacker News

Model yang dirilis kali ini membuka bobotnya sebagai open source dengan lisensi Apache 2.0
Model peraih medali emas IMO dari OpenAI maupun DeepMind masih tetap tertutup
- Seperti cara perusahaan AI menangani hak cipta data pelatihan, saya pikir kita juga perlu memperlakukan hak cipta bobot dengan cara yang sama
- Namun jika hanya bobot yang dibuka sementara kode pelatihan dan data tidak dibuka, model itu tetap bersifat tertutup
Diskusi sebelumnya ada di tautan ini
- Saya sempat melewatkan tautan itu, terima kasih sudah membagikannya
Sangat mengesankan melihat model open-weight cepat menyusul di domain khusus seperti matematika atau penalaran
Saya penasaran apakah ada yang sudah mencobanya pada pengujian logika kompleks atau terkait coding. Model dengan performa matematika yang baik sering kali juga kuat dalam debugging atau pembuatan algoritma
- Model yang terspesialisasi pada domain tertentu memang secara alami muncul karena nilai komersialnya lebih rendah, sementara pelatihan LLM skala besar cenderung memprioritaskan kegunaan umum
- kimi-k2 cukup lumayan untuk coding, tetapi belum mencapai level model SOTA dari Anthropic, OpenAI, atau Google
Saya rasa kita juga perlu punya pandangan skeptis terhadap hasil model ini
Mereka menyatakan bahwa soal-soalnya dilatih langsung dari kumpulan internet, tetapi tidak menyebutkan apakah ada pembersihan kontaminasi benchmark atau pengecualian soal tahun 2024/2025
OpenAI dan Google menguji model eksperimental mereka dalam kondisi tanpa akses lebih dulu ke soal tahun 2025
Saya penasaran kenapa model peraih medali emas milik OpenAI masih belum dirilis
- Itu cuma untuk promosi. Pelajaran yang didapat dari sana rencananya akan diterapkan ke model umum berikutnya
Penting untuk dicatat bahwa model ini bukan model umum. Model Google dan OpenAI menggunakan model umum
- Sebenarnya baik OpenAI maupun Google sama-sama memakai model riset yang terspesialisasi untuk IMO
  - OpenAI dalam tweet ini mengisyaratkan peluncuran GPT-5, dan menyatakan bahwa model IMO masih eksperimental sehingga belum ada rencana merilisnya dalam waktu dekat
  - DeepMind dalam blog resmi menjelaskan bahwa Gemini dilatih dengan penalaran multi-langkah berbasis reinforcement learning dan data pembuktian teorema
- Postingan resmi DeepSeek juga dibagikan
Saya penasaran bagaimana cara menjalankan model seperti ini di rumah
Apakah mungkin dengan basis CPU dan RAM sekitar 1TB?
- Data unduhannya saja 690GB, jadi sepertinya butuh RAM 1TB. Bahkan dengan dua mesin Strix Halo milik saya juga tidak bisa
- Dengan ik_llama.cpp, RAM yang cukup, dan satu GPU, model ini bisa dijalankan meski pelan. llama.cpp biasa juga bisa, tetapi fork ik lebih efisien
- Katanya ini juga bisa dilakukan dengan dua Mac Studio 512GB yang dihubungkan lewat Thunderbolt 5
Ada kecurigaan apakah model ini mungkin tidak didistilasi langsung dari keluaran OpenAI atau Google
Saya penasaran apakah ada rencana agar model ini hadir di OpenRouter
Jika OpenAI memasukkan iklan ke ChatGPT, bukankah orang-orang akan langsung pindah ke model lain?
- Saya justru merasa akan lebih baik jika banyak penyedia merilis model umum yang bersaing pada harga pasar
- Terlepas ada iklan atau tidak, saya tidak percaya pada OpenAI. Sulit percaya sebelum mereka mengganti nama menjadi CloseAI
- ChatGPT itu cuma sebuah situs web. Tidak aneh jika situs web menampilkan iklan. Instagram juga begitu
- Mereka sudah punya struktur pendapatan lewat data center GPU dan API. Sekalipun muncul persaingan, untuk sementara masih akan tetap menjadi pilihan nomor satu
- Google juga sudah beriklan selama puluhan tahun, tetapi tidak ada yang pindah ke mesin pencari lain

DeepSeekMath-V2 Dirilis - Menuju Penalaran Matematis yang Dapat Diverifikasi Sendiri

1. Pendahuluan (Introduction)

2. Hasil Evaluasi (Evaluation Results)

3. Struktur dan Dasar Model (Model Architecture)

4. Lisensi (License)

5. Informasi Sitasi (Citation)

6. Informasi Lainnya

Bacaan terkait

1 komentar

Komentar Hacker News