5 poin oleh GN⁺ 2025-02-12 | 1 komentar | Bagikan ke WhatsApp
  • DeepScaleR-1.5B-Preview: model yang di-fine-tune dari Deepseek-R1-Distilled-Qwen-1.5B menggunakan reinforcement learning (RL)
  • Mencapai akurasi AIME2024 Pass@1 sebesar 43.1% (naik +14.3% dibanding model dasar),
    → melampaui performa OpenAI o1-preview!
  • Dilatih dengan 3.800 jam GPU A100 ($4500) → scaling RL 18.42 kali lebih efisien dibanding 70.000 jam GPU A100
  • Dataset, kode, dan log pelatihan dirilis sebagai open source → siapa pun dapat bereksperimen dengan perluasan kecerdasan menggunakan RL

Memperkuat model kecil dengan RL

  • Deepseek-R1 adalah model open source yang dapat disejajarkan dengan OpenAI o1, tetapi proses pelatihan detailnya tidak dipublikasikan
  • Penelitian ini mengeksplorasi cara mengembangkan model penalaran yang kuat dengan komputasi lebih kecil menggunakan RL
  • Keterbatasan terbesar RL sebelumnya adalah biaya tinggi:
    → untuk mereproduksi eksperimen Deepseek-R1, dibutuhkan setidaknya 70.000 jam GPU A100
  • Solusinya:
    • memanfaatkan model distillation pengetahuan berkinerja tinggi
    • memperkenalkan teknik "Iterative Lengthening" untuk memperluas RL secara bertahap → komputasi ditekan menjadi 3.800 jam GPU A100

Pembangunan dataset

  • Menggunakan dataset AIME(1984-2023) + AMC(sebelum 2023) + Omni-MATH + Still

  • Proses pembersihan data:

    1. Ekstraksi jawaban: menggunakan gemini-1.5-pro-002 untuk mengekstrak jawaban dari penjelasan resmi
    2. Penghapusan duplikasi: menghapus soal serupa berbasis embedding sentence-transformers/all-MiniLM-L6-v2
    3. Penyaringan soal yang tidak bisa dinilai: menghapus soal yang sulit dievaluasi otomatis dengan sympy
  • Hasil akhirnya adalah 40.000 pasangan soal-jawaban, dengan rencana perluasan data ke depan

Fungsi reward (Reward Function)

  • Sama seperti Deepseek-R1, diterapkan "Outcome Reward Model (ORM)":

    • 1 poin: jawaban benar dengan format yang sesuai (lolos verifikasi sympy)
    • 0 poin: jawaban salah, kesalahan format (misalnya tag <think>...</think> hilang)
  • Alasan tidak menggunakan "Process Reward Model (PRM)":

    • untuk mencegah reward hacking → mencegah efek samping model yang hanya berusaha mengikuti format

"Iterative Lengthening": teknik untuk memperluas pembelajaran RL secara bertahap

Step 1: Memulai pembelajaran RL dengan konteks 8K

  • Alasannya:
    • jawaban yang salah rata-rata 20.346 token, sedangkan jawaban benar 6.395 token → respons yang panjang meningkatkan kemungkinan jawaban salah
    • melatih dengan konteks panjang sejak awal tidak efisien → optimalkan dulu di 8K
  • Hasil:
    • AIME Pass@1 meningkat dari 28.9% → 33.9% (+5%)
    • jumlah token yang tidak perlu berkurang → panjang respons rata-rata turun 10.484 token

Step 2: Diperluas ke konteks 16K

  • Setelah 1.000 step pelatihan, model menunjukkan kecenderungan untuk berpikir (bernalar) lebih panjang
  • Namun efek pembelajaran dibatasi oleh batas 8K → lalu diperluas ke 16K
  • Keunggulannya:
    • lebih dari 2 kali lebih cepat dibanding melatih di 16K sejak awal (mencegah panjang respons rata-rata melonjak dari 3.000 → 9.000 token)
    • akurasi AIME2024 mencapai 38%

Step 3: "24K Magic" - peningkatan performa akhir

  • Di 16K, performa mulai stagnan → perluasan terakhir ke konteks 24K
  • Hasil akhirnya, akurasi AIME2024 Pass@1 mencapai 43.1%, melampaui OpenAI o1-preview!

Hasil evaluasi akhir

  • Model DeepScaleR dievaluasi pada berbagai benchmark matematika seperti AIME, MATH 500, AMC 2023, Minerva Math, dan OlympiadBench
  • Berdasarkan AIME2024, akurasi DeepScaleR-1.5B-Preview adalah 43.1%, lebih unggul daripada model OpenAI o1-preview
  • Pada MATH 500 dan AMC 2023, meskipun hanya model 1.5B, performanya setara atau lebih tinggi daripada model 7B
  • Bahkan dibanding penelitian sebelumnya (rStar, PRIME, SimpleRL berbasis RL), model ini menunjukkan efisiensi terbaik

Ringkasan inti (Key Takeaways)

  1. Scaling RL juga memungkinkan pada model kecil

    • Sebelumnya ada anggapan bahwa RL hanya efektif pada model besar
    • Namun model kecil yang telah di-fine-tune dengan data berkualitas tinggi juga dapat mempelajari kemampuan penalaran yang kuat melalui RL
    • DeepScaleR meningkat dari 28.9% → 43.1% (akurasi AIME)
  2. Teknik "Iterative Lengthening" memungkinkan perluasan panjang yang efektif

    • Penelitian sebelumnya melaporkan peningkatan performa yang kecil pada konteks di atas 16K
    • Performa dimaksimalkan melalui perluasan bertahap 8K → 16K → 24K

Kesimpulan: demokratisasi scaling RL

  • DeepScaleR-1.5B-Preview adalah model RL open source pertama yang melampaui O1-preview
  • Hanya dengan 3.800 jam GPU A100 ($4500), model berperforma tinggi dapat dibangun → membuktikan potensi riset RL berbiaya rendah
  • Mereka berencana terus mengembangkan model penalaran berbasis RL bersama komunitas open source

🔗 Materi open source:

1 komentar

 
GN⁺ 2025-02-12
Opini Hacker News
  • Model ini disetel agar cocok dengan benchmark untuk menyelesaikan masalah tertentu, dan pada tugas lain performanya lebih buruk dibanding O1-Preview. Kalau Anda tidak benar-benar ingin menyelesaikan masalah khusus ini, tidak terlalu layak diperhatikan. Meski begitu, tetap mengesankan
  • Model penguatan kecil akan menang. Lihat peradaban, perusahaan, dan tim kita: ada banyak orang yang terspesialisasi, bukan satu jenius raksasa
  • Penekanan berlebihan pada benchmark saat ini adalah masalahnya. Idealnya, benchmark harus dibandingkan dengan KPI pengguna
  • Yang penting adalah adanya formula sederhana dan andal untuk melatih model 1B yang bisa menunjukkan performa kuat pada tugas tertentu. Dulu hal seperti ini belum ada. Perangkat edge akan menjadi jauh lebih pintar
  • Saya mungkin sangat naif, tetapi apakah ada orang yang benar-benar percaya pada benchmark ini? Apakah ini benar-benar bermakna? Rasanya terlalu mudah dimanipulasi, dan tidak terasa seperti cara yang akurat untuk mengetahui bagaimana perbandingan antarmodel. Jika diperkenalkan soal yang mirip benchmark tetapi belum pernah dilihat model, sepertinya performanya turun cukup banyak
  • Apakah ada prompt sederhana yang bagus untuk menguji model "reasoning" baru? "Hitung huruf R dalam kata strawberry" agak membosankan
  • Saya sedang mencoba ini secara lokal dengan Ollama dan versi GGUF terkuantisasi paling kecil (769MB)
  • Saya mendapat jawaban yang benar setelah melihat jawaban yang didapat di sini: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Namun, di awal model membuat kesalahan penting
  • Apakah model CoT bisa memanggil fungsi eksternal? Bagaimana jika ia punya akses ke kalkulator?
  • Akan sangat bagus jika kita bisa mendapatkan model yang tidak disensor dengan cara seperti ini
  • Sebenarnya cukup bodoh. Saya memintanya mendekode urutan ASCII, dan ia memberi jawaban yang tidak masuk akal. Saya mencoba phi-4 Q4 dan hasilnya benar. 9GB vs 2GB (reasoning). Sepertinya 2GB tidak cukup untuk memuat informasi yang memadai, jadi selain menyelesaikan soal matematika umum atau mengetahui apa yang ada di data latihannya, model ini tampaknya tidak terlalu berguna
  • Waktu saya kuliah, ini sejujurnya disebut overfitting. Sepertinya tidak bekerja dengan baik di luar set evaluasi