5 poin oleh GN⁺ 2025-12-02 | 1 komentar | Bagikan ke WhatsApp
  • Bertujuan meningkatkan kemampuan penalaran matematis model bahasa besar, model ini memperkuat kemampuan verifikasi proses penalaran melampaui sekadar akurasi jawaban akhir
  • Memperbaiki keterbatasan pendekatan berbasis pembelajaran penguatan yang berfokus pada imbalan jawaban akhir, dengan memperkenalkan mekanisme self-verification
  • Untuk masalah seperti pembuktian teorema (theorem proving) yang memerlukan pengembangan logika langkah demi langkah, model generatif dirancang agar dapat menemukan dan memperbaiki kesalahannya sendiri
  • Dengan memanfaatkan verifier sebagai model imbalan dan menskalakan komputasi verifikasi, data pembuktian sulit diberi label secara otomatis untuk meningkatkan performa secara berkelanjutan
  • Mencatat skor tingkat tertinggi di IMO 2025, CMO 2024, Putnam 2024, dan membuktikan kelayakan AI matematika dengan self-verification

1. Pendahuluan (Introduction)

  • Model bahasa besar (LLM) telah mencapai kemajuan besar dalam penalaran matematis, yang berperan sebagai batu uji penting dalam riset AI
    • Melalui pembelajaran penguatan berbasis imbalan jawaban benar, model mencapai performa papan atas dalam kompetisi seperti AIME dan HMMT hanya dalam waktu satu tahun
  • Namun, pendekatan yang hanya meningkatkan akurasi jawaban akhir memiliki keterbatasan
    • Walaupun jawabannya benar, validitas proses penalaran tidak terjamin, dan pendekatan ini tidak dapat diterapkan pada masalah seperti pembuktian teorema yang memerlukan pengembangan logika langkah demi langkah
  • Untuk mengatasi hal ini, diperkenalkan konsep self-verification agar model dapat menilai kelengkapan dan ketelitian penalaran
    • Khususnya pada masalah terbuka (open problems) yang jawabannya belum diketahui, hal ini diajukan sebagai elemen penting untuk penskalaan komputasi saat pengujian
  • Tim peneliti melatih verifier berbasis LLM yang akurat dan andal, lalu menggunakannya sebagai model imbalan untuk melatih generator pembuktian (generator)
    • Dengan demikian, generator didorong untuk menemukan dan memperbaiki kesalahan dalam pembuktiannya sendiri
  • Seiring meningkatnya performa generator, tingkat kesulitan verifikasi juga naik, sehingga dilakukan penskalaan komputasi verifikasi (scale verification compute) untuk memberi label otomatis pada pembuktian baru yang sulit
    • Melalui cara ini, performa verifier terus ditingkatkan
  • Model hasilnya, DeepSeekMath-V2, mencatat tingkat medali emas di IMO 2025 dan CMO 2024, serta 118/120 poin di Putnam 2024
    • Hasil ini menunjukkan bahwa penalaran matematis dengan self-verification adalah arah penelitian yang layak diwujudkan

2. Hasil Evaluasi (Evaluation Results)

  • Evaluasi menggunakan IMO-ProofBench yang dikembangkan oleh tim DeepThink IMO-Gold dari DeepMind serta kompetisi matematika terbaru (IMO 2025, CMO 2024, Putnam 2024)
    • Angka spesifik atau hasil rinci tidak disebutkan dalam isi utama

3. Struktur dan Dasar Model (Model Architecture)

  • DeepSeekMath-V2 dibangun berdasarkan model DeepSeek-V3.2-Exp-Base
    • Untuk dukungan terkait inferensi, lihat repositori GitHub DeepSeek-V3.2-Exp

4. Lisensi (License)

  • Model dan bobot didistribusikan di bawah Apache License 2.0

5. Informasi Sitasi (Citation)

  • Penulis riset dan informasi makalah dicantumkan, dengan judul
    “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. Informasi Lainnya

  • Jumlah unduhan selama satu bulan terakhir: 4.434 kali
  • Saat menyusun pohon model, model dasar membentuk loop referensi diri, sehingga ditandai tidak dapat membuat pohon

1 komentar

 
GN⁺ 2025-12-02
Komentar Hacker News
  • Model yang dirilis kali ini membuka bobotnya sebagai open source dengan lisensi Apache 2.0
    Model peraih medali emas IMO dari OpenAI maupun DeepMind masih tetap tertutup

    • Seperti cara perusahaan AI menangani hak cipta data pelatihan, saya pikir kita juga perlu memperlakukan hak cipta bobot dengan cara yang sama
    • Namun jika hanya bobot yang dibuka sementara kode pelatihan dan data tidak dibuka, model itu tetap bersifat tertutup
  • Diskusi sebelumnya ada di tautan ini

    • Saya sempat melewatkan tautan itu, terima kasih sudah membagikannya
  • Sangat mengesankan melihat model open-weight cepat menyusul di domain khusus seperti matematika atau penalaran
    Saya penasaran apakah ada yang sudah mencobanya pada pengujian logika kompleks atau terkait coding. Model dengan performa matematika yang baik sering kali juga kuat dalam debugging atau pembuatan algoritma

    • Model yang terspesialisasi pada domain tertentu memang secara alami muncul karena nilai komersialnya lebih rendah, sementara pelatihan LLM skala besar cenderung memprioritaskan kegunaan umum
    • kimi-k2 cukup lumayan untuk coding, tetapi belum mencapai level model SOTA dari Anthropic, OpenAI, atau Google
  • Saya rasa kita juga perlu punya pandangan skeptis terhadap hasil model ini
    Mereka menyatakan bahwa soal-soalnya dilatih langsung dari kumpulan internet, tetapi tidak menyebutkan apakah ada pembersihan kontaminasi benchmark atau pengecualian soal tahun 2024/2025
    OpenAI dan Google menguji model eksperimental mereka dalam kondisi tanpa akses lebih dulu ke soal tahun 2025

  • Saya penasaran kenapa model peraih medali emas milik OpenAI masih belum dirilis

    • Itu cuma untuk promosi. Pelajaran yang didapat dari sana rencananya akan diterapkan ke model umum berikutnya
  • Penting untuk dicatat bahwa model ini bukan model umum. Model Google dan OpenAI menggunakan model umum

    • Sebenarnya baik OpenAI maupun Google sama-sama memakai model riset yang terspesialisasi untuk IMO
      • OpenAI dalam tweet ini mengisyaratkan peluncuran GPT-5, dan menyatakan bahwa model IMO masih eksperimental sehingga belum ada rencana merilisnya dalam waktu dekat
      • DeepMind dalam blog resmi menjelaskan bahwa Gemini dilatih dengan penalaran multi-langkah berbasis reinforcement learning dan data pembuktian teorema
    • Postingan resmi DeepSeek juga dibagikan
  • Saya penasaran bagaimana cara menjalankan model seperti ini di rumah
    Apakah mungkin dengan basis CPU dan RAM sekitar 1TB?

    • Data unduhannya saja 690GB, jadi sepertinya butuh RAM 1TB. Bahkan dengan dua mesin Strix Halo milik saya juga tidak bisa
    • Dengan ik_llama.cpp, RAM yang cukup, dan satu GPU, model ini bisa dijalankan meski pelan. llama.cpp biasa juga bisa, tetapi fork ik lebih efisien
    • Katanya ini juga bisa dilakukan dengan dua Mac Studio 512GB yang dihubungkan lewat Thunderbolt 5
  • Ada kecurigaan apakah model ini mungkin tidak didistilasi langsung dari keluaran OpenAI atau Google

  • Saya penasaran apakah ada rencana agar model ini hadir di OpenRouter

  • Jika OpenAI memasukkan iklan ke ChatGPT, bukankah orang-orang akan langsung pindah ke model lain?

    • Saya justru merasa akan lebih baik jika banyak penyedia merilis model umum yang bersaing pada harga pasar
    • Terlepas ada iklan atau tidak, saya tidak percaya pada OpenAI. Sulit percaya sebelum mereka mengganti nama menjadi CloseAI
    • ChatGPT itu cuma sebuah situs web. Tidak aneh jika situs web menampilkan iklan. Instagram juga begitu
    • Mereka sudah punya struktur pendapatan lewat data center GPU dan API. Sekalipun muncul persaingan, untuk sementara masih akan tetap menjadi pilihan nomor satu
    • Google juga sudah beriklan selama puluhan tahun, tetapi tidak ada yang pindah ke mesin pencari lain