DeepScaleR: Mengungguli O1-Preview dengan model 1.5B menggunakan RL
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: model yang di-fine-tune dari Deepseek-R1-Distilled-Qwen-1.5B menggunakan reinforcement learning (RL)
- Mencapai akurasi AIME2024 Pass@1 sebesar 43.1% (naik +14.3% dibanding model dasar),
→ melampaui performa OpenAIo1-preview! - Dilatih dengan 3.800 jam GPU A100 ($4500) → scaling RL 18.42 kali lebih efisien dibanding 70.000 jam GPU A100
- Dataset, kode, dan log pelatihan dirilis sebagai open source → siapa pun dapat bereksperimen dengan perluasan kecerdasan menggunakan RL
Memperkuat model kecil dengan RL
- Deepseek-R1 adalah model open source yang dapat disejajarkan dengan OpenAI
o1, tetapi proses pelatihan detailnya tidak dipublikasikan - Penelitian ini mengeksplorasi cara mengembangkan model penalaran yang kuat dengan komputasi lebih kecil menggunakan RL
- Keterbatasan terbesar RL sebelumnya adalah biaya tinggi:
→ untuk mereproduksi eksperimenDeepseek-R1, dibutuhkan setidaknya 70.000 jam GPU A100 - Solusinya:
- memanfaatkan model distillation pengetahuan berkinerja tinggi
- memperkenalkan teknik "Iterative Lengthening" untuk memperluas RL secara bertahap → komputasi ditekan menjadi 3.800 jam GPU A100
Pembangunan dataset
-
Menggunakan dataset AIME(1984-2023) + AMC(sebelum 2023) + Omni-MATH + Still
-
Proses pembersihan data:
- Ekstraksi jawaban: menggunakan
gemini-1.5-pro-002untuk mengekstrak jawaban dari penjelasan resmi - Penghapusan duplikasi: menghapus soal serupa berbasis embedding
sentence-transformers/all-MiniLM-L6-v2 - Penyaringan soal yang tidak bisa dinilai: menghapus soal yang sulit dievaluasi otomatis dengan
sympy
- Ekstraksi jawaban: menggunakan
-
Hasil akhirnya adalah 40.000 pasangan soal-jawaban, dengan rencana perluasan data ke depan
Fungsi reward (Reward Function)
-
Sama seperti Deepseek-R1, diterapkan "Outcome Reward Model (ORM)":
1 poin: jawaban benar dengan format yang sesuai (lolos verifikasisympy)0 poin: jawaban salah, kesalahan format (misalnya tag<think>...</think>hilang)
-
Alasan tidak menggunakan "Process Reward Model (PRM)":
- untuk mencegah reward hacking → mencegah efek samping model yang hanya berusaha mengikuti format
"Iterative Lengthening": teknik untuk memperluas pembelajaran RL secara bertahap
Step 1: Memulai pembelajaran RL dengan konteks 8K
- Alasannya:
- jawaban yang salah rata-rata 20.346 token, sedangkan jawaban benar 6.395 token → respons yang panjang meningkatkan kemungkinan jawaban salah
- melatih dengan konteks panjang sejak awal tidak efisien → optimalkan dulu di 8K
- Hasil:
- AIME Pass@1 meningkat dari 28.9% → 33.9% (+5%)
- jumlah token yang tidak perlu berkurang → panjang respons rata-rata turun 10.484 token
Step 2: Diperluas ke konteks 16K
- Setelah 1.000 step pelatihan, model menunjukkan kecenderungan untuk berpikir (bernalar) lebih panjang
- Namun efek pembelajaran dibatasi oleh batas 8K → lalu diperluas ke 16K
- Keunggulannya:
- lebih dari 2 kali lebih cepat dibanding melatih di 16K sejak awal (mencegah panjang respons rata-rata melonjak dari 3.000 → 9.000 token)
- akurasi AIME2024 mencapai 38%
Step 3: "24K Magic" - peningkatan performa akhir
- Di 16K, performa mulai stagnan → perluasan terakhir ke konteks 24K
- Hasil akhirnya, akurasi AIME2024 Pass@1 mencapai 43.1%, melampaui OpenAI
o1-preview!
Hasil evaluasi akhir
- Model DeepScaleR dievaluasi pada berbagai benchmark matematika seperti AIME, MATH 500, AMC 2023, Minerva Math, dan OlympiadBench
- Berdasarkan AIME2024, akurasi DeepScaleR-1.5B-Preview adalah 43.1%, lebih unggul daripada model OpenAI
o1-preview - Pada MATH 500 dan AMC 2023, meskipun hanya model 1.5B, performanya setara atau lebih tinggi daripada model 7B
- Bahkan dibanding penelitian sebelumnya (rStar, PRIME, SimpleRL berbasis RL), model ini menunjukkan efisiensi terbaik
Ringkasan inti (Key Takeaways)
-
Scaling RL juga memungkinkan pada model kecil
- Sebelumnya ada anggapan bahwa RL hanya efektif pada model besar
- Namun model kecil yang telah di-fine-tune dengan data berkualitas tinggi juga dapat mempelajari kemampuan penalaran yang kuat melalui RL
- DeepScaleR meningkat dari 28.9% → 43.1% (akurasi AIME)
-
Teknik "Iterative Lengthening" memungkinkan perluasan panjang yang efektif
- Penelitian sebelumnya melaporkan peningkatan performa yang kecil pada konteks di atas 16K
- Performa dimaksimalkan melalui perluasan bertahap 8K → 16K → 24K
Kesimpulan: demokratisasi scaling RL
- DeepScaleR-1.5B-Preview adalah model RL open source pertama yang melampaui O1-preview
- Hanya dengan 3.800 jam GPU A100 ($4500), model berperforma tinggi dapat dibangun → membuktikan potensi riset RL berbiaya rendah
- Mereka berencana terus mengembangkan model penalaran berbasis RL bersama komunitas open source
🔗 Materi open source:
1 komentar
Opini Hacker News