5 poin oleh GN⁺ 2025-12-02 | Belum ada komentar. | Bagikan ke WhatsApp
  • Bertujuan meningkatkan kemampuan penalaran matematis model bahasa besar, model ini memperkuat kemampuan verifikasi proses penalaran melampaui sekadar akurasi jawaban akhir
  • Memperbaiki keterbatasan pendekatan berbasis pembelajaran penguatan yang berfokus pada imbalan jawaban akhir, dengan memperkenalkan mekanisme self-verification
  • Untuk masalah seperti pembuktian teorema (theorem proving) yang memerlukan pengembangan logika langkah demi langkah, model generatif dirancang agar dapat menemukan dan memperbaiki kesalahannya sendiri
  • Dengan memanfaatkan verifier sebagai model imbalan dan menskalakan komputasi verifikasi, data pembuktian sulit diberi label secara otomatis untuk meningkatkan performa secara berkelanjutan
  • Mencatat skor tingkat tertinggi di IMO 2025, CMO 2024, Putnam 2024, dan membuktikan kelayakan AI matematika dengan self-verification

1. Pendahuluan (Introduction)

  • Model bahasa besar (LLM) telah mencapai kemajuan besar dalam penalaran matematis, yang berperan sebagai batu uji penting dalam riset AI
    • Melalui pembelajaran penguatan berbasis imbalan jawaban benar, model mencapai performa papan atas dalam kompetisi seperti AIME dan HMMT hanya dalam waktu satu tahun
  • Namun, pendekatan yang hanya meningkatkan akurasi jawaban akhir memiliki keterbatasan
    • Walaupun jawabannya benar, validitas proses penalaran tidak terjamin, dan pendekatan ini tidak dapat diterapkan pada masalah seperti pembuktian teorema yang memerlukan pengembangan logika langkah demi langkah
  • Untuk mengatasi hal ini, diperkenalkan konsep self-verification agar model dapat menilai kelengkapan dan ketelitian penalaran
    • Khususnya pada masalah terbuka (open problems) yang jawabannya belum diketahui, hal ini diajukan sebagai elemen penting untuk penskalaan komputasi saat pengujian
  • Tim peneliti melatih verifier berbasis LLM yang akurat dan andal, lalu menggunakannya sebagai model imbalan untuk melatih generator pembuktian (generator)
    • Dengan demikian, generator didorong untuk menemukan dan memperbaiki kesalahan dalam pembuktiannya sendiri
  • Seiring meningkatnya performa generator, tingkat kesulitan verifikasi juga naik, sehingga dilakukan penskalaan komputasi verifikasi (scale verification compute) untuk memberi label otomatis pada pembuktian baru yang sulit
    • Melalui cara ini, performa verifier terus ditingkatkan
  • Model hasilnya, DeepSeekMath-V2, mencatat tingkat medali emas di IMO 2025 dan CMO 2024, serta 118/120 poin di Putnam 2024
    • Hasil ini menunjukkan bahwa penalaran matematis dengan self-verification adalah arah penelitian yang layak diwujudkan

2. Hasil Evaluasi (Evaluation Results)

  • Evaluasi menggunakan IMO-ProofBench yang dikembangkan oleh tim DeepThink IMO-Gold dari DeepMind serta kompetisi matematika terbaru (IMO 2025, CMO 2024, Putnam 2024)
    • Angka spesifik atau hasil rinci tidak disebutkan dalam isi utama

3. Struktur dan Dasar Model (Model Architecture)

  • DeepSeekMath-V2 dibangun berdasarkan model DeepSeek-V3.2-Exp-Base
    • Untuk dukungan terkait inferensi, lihat repositori GitHub DeepSeek-V3.2-Exp

4. Lisensi (License)

  • Model dan bobot didistribusikan di bawah Apache License 2.0

5. Informasi Sitasi (Citation)

  • Penulis riset dan informasi makalah dicantumkan, dengan judul
    “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. Informasi Lainnya

  • Jumlah unduhan selama satu bulan terakhir: 4.434 kali
  • Saat menyusun pohon model, model dasar membentuk loop referensi diri, sehingga ditandai tidak dapat membuat pohon

Belum ada komentar.

Belum ada komentar.