DeepScaleR: Mengungguli O1-Preview dengan model 1.5B menggunakan RL

(pretty-radio-b75.notion.site)

5 poin oleh GN⁺ 2025-02-12 | 1 komentar | Bagikan ke WhatsApp

DeepScaleR-1.5B-Preview: model yang di-fine-tune dari Deepseek-R1-Distilled-Qwen-1.5B menggunakan reinforcement learning (RL)
Mencapai akurasi AIME2024 Pass@1 sebesar 43.1% (naik +14.3% dibanding model dasar),
→ melampaui performa OpenAI o1-preview!
Dilatih dengan 3.800 jam GPU A100 ($4500) → scaling RL 18.42 kali lebih efisien dibanding 70.000 jam GPU A100
Dataset, kode, dan log pelatihan dirilis sebagai open source → siapa pun dapat bereksperimen dengan perluasan kecerdasan menggunakan RL

Memperkuat model kecil dengan RL

Deepseek-R1 adalah model open source yang dapat disejajarkan dengan OpenAI o1, tetapi proses pelatihan detailnya tidak dipublikasikan
Penelitian ini mengeksplorasi cara mengembangkan model penalaran yang kuat dengan komputasi lebih kecil menggunakan RL
Keterbatasan terbesar RL sebelumnya adalah biaya tinggi:
→ untuk mereproduksi eksperimen Deepseek-R1, dibutuhkan setidaknya 70.000 jam GPU A100
Solusinya:
- memanfaatkan model distillation pengetahuan berkinerja tinggi
- memperkenalkan teknik "Iterative Lengthening" untuk memperluas RL secara bertahap → komputasi ditekan menjadi 3.800 jam GPU A100

Pembangunan dataset

Menggunakan dataset AIME(1984-2023) + AMC(sebelum 2023) + Omni-MATH + Still
Proses pembersihan data:
1. Ekstraksi jawaban: menggunakan gemini-1.5-pro-002 untuk mengekstrak jawaban dari penjelasan resmi
2. Penghapusan duplikasi: menghapus soal serupa berbasis embedding sentence-transformers/all-MiniLM-L6-v2
3. Penyaringan soal yang tidak bisa dinilai: menghapus soal yang sulit dievaluasi otomatis dengan sympy
Hasil akhirnya adalah 40.000 pasangan soal-jawaban, dengan rencana perluasan data ke depan

Fungsi reward (Reward Function)

Sama seperti Deepseek-R1, diterapkan "Outcome Reward Model (ORM)":
- 1 poin: jawaban benar dengan format yang sesuai (lolos verifikasi sympy)
- 0 poin: jawaban salah, kesalahan format (misalnya tag <think>...</think> hilang)
Alasan tidak menggunakan "Process Reward Model (PRM)":
- untuk mencegah reward hacking → mencegah efek samping model yang hanya berusaha mengikuti format

"Iterative Lengthening": teknik untuk memperluas pembelajaran RL secara bertahap

Step 1: Memulai pembelajaran RL dengan konteks 8K

Alasannya:
- jawaban yang salah rata-rata 20.346 token, sedangkan jawaban benar 6.395 token → respons yang panjang meningkatkan kemungkinan jawaban salah
- melatih dengan konteks panjang sejak awal tidak efisien → optimalkan dulu di 8K
Hasil:
- AIME Pass@1 meningkat dari 28.9% → 33.9% (+5%)
- jumlah token yang tidak perlu berkurang → panjang respons rata-rata turun 10.484 token

Step 2: Diperluas ke konteks 16K

Setelah 1.000 step pelatihan, model menunjukkan kecenderungan untuk berpikir (bernalar) lebih panjang
Namun efek pembelajaran dibatasi oleh batas 8K → lalu diperluas ke 16K
Keunggulannya:
- lebih dari 2 kali lebih cepat dibanding melatih di 16K sejak awal (mencegah panjang respons rata-rata melonjak dari 3.000 → 9.000 token)
- akurasi AIME2024 mencapai 38%

Step 3: "24K Magic" - peningkatan performa akhir

Di 16K, performa mulai stagnan → perluasan terakhir ke konteks 24K
Hasil akhirnya, akurasi AIME2024 Pass@1 mencapai 43.1%, melampaui OpenAI o1-preview!

Hasil evaluasi akhir

Model DeepScaleR dievaluasi pada berbagai benchmark matematika seperti AIME, MATH 500, AMC 2023, Minerva Math, dan OlympiadBench
Berdasarkan AIME2024, akurasi DeepScaleR-1.5B-Preview adalah 43.1%, lebih unggul daripada model OpenAI o1-preview
Pada MATH 500 dan AMC 2023, meskipun hanya model 1.5B, performanya setara atau lebih tinggi daripada model 7B
Bahkan dibanding penelitian sebelumnya (rStar, PRIME, SimpleRL berbasis RL), model ini menunjukkan efisiensi terbaik

Ringkasan inti (Key Takeaways)

Scaling RL juga memungkinkan pada model kecil
- Sebelumnya ada anggapan bahwa RL hanya efektif pada model besar
- Namun model kecil yang telah di-fine-tune dengan data berkualitas tinggi juga dapat mempelajari kemampuan penalaran yang kuat melalui RL
- DeepScaleR meningkat dari 28.9% → 43.1% (akurasi AIME)
Teknik "Iterative Lengthening" memungkinkan perluasan panjang yang efektif
- Penelitian sebelumnya melaporkan peningkatan performa yang kecil pada konteks di atas 16K
- Performa dimaksimalkan melalui perluasan bertahap 8K → 16K → 24K

Kesimpulan: demokratisasi scaling RL

DeepScaleR-1.5B-Preview adalah model RL open source pertama yang melampaui O1-preview
Hanya dengan 3.800 jam GPU A100 ($4500), model berperforma tinggi dapat dibangun → membuktikan potensi riset RL berbiaya rendah
Mereka berencana terus mengembangkan model penalaran berbasis RL bersama komunitas open source

🔗 Materi open source:

1 komentar

GN⁺ 2025-02-12

Opini Hacker News

Model ini disetel agar cocok dengan benchmark untuk menyelesaikan masalah tertentu, dan pada tugas lain performanya lebih buruk dibanding O1-Preview. Kalau Anda tidak benar-benar ingin menyelesaikan masalah khusus ini, tidak terlalu layak diperhatikan. Meski begitu, tetap mengesankan
Model penguatan kecil akan menang. Lihat peradaban, perusahaan, dan tim kita: ada banyak orang yang terspesialisasi, bukan satu jenius raksasa
Penekanan berlebihan pada benchmark saat ini adalah masalahnya. Idealnya, benchmark harus dibandingkan dengan KPI pengguna
Yang penting adalah adanya formula sederhana dan andal untuk melatih model 1B yang bisa menunjukkan performa kuat pada tugas tertentu. Dulu hal seperti ini belum ada. Perangkat edge akan menjadi jauh lebih pintar
Saya mungkin sangat naif, tetapi apakah ada orang yang benar-benar percaya pada benchmark ini? Apakah ini benar-benar bermakna? Rasanya terlalu mudah dimanipulasi, dan tidak terasa seperti cara yang akurat untuk mengetahui bagaimana perbandingan antarmodel. Jika diperkenalkan soal yang mirip benchmark tetapi belum pernah dilihat model, sepertinya performanya turun cukup banyak
Apakah ada prompt sederhana yang bagus untuk menguji model "reasoning" baru? "Hitung huruf R dalam kata strawberry" agak membosankan
Saya sedang mencoba ini secara lokal dengan Ollama dan versi GGUF terkuantisasi paling kecil (769MB)
Saya mendapat jawaban yang benar setelah melihat jawaban yang didapat di sini: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Namun, di awal model membuat kesalahan penting
Apakah model CoT bisa memanggil fungsi eksternal? Bagaimana jika ia punya akses ke kalkulator?
Akan sangat bagus jika kita bisa mendapatkan model yang tidak disensor dengan cara seperti ini
Sebenarnya cukup bodoh. Saya memintanya mendekode urutan ASCII, dan ia memberi jawaban yang tidak masuk akal. Saya mencoba phi-4 Q4 dan hasilnya benar. 9GB vs 2GB (reasoning). Sepertinya 2GB tidak cukup untuk memuat informasi yang memadai, jadi selain menyelesaikan soal matematika umum atau mengetahui apa yang ada di data latihannya, model ini tampaknya tidak terlalu berguna
Waktu saya kuliah, ini sejujurnya disebut overfitting. Sepertinya tidak bekerja dengan baik di luar set evaluasi

DeepScaleR: Mengungguli O1-Preview dengan model 1.5B menggunakan RL

Memperkuat model kecil dengan RL

Pembangunan dataset

Fungsi reward (Reward Function)

"Iterative Lengthening": teknik untuk memperluas pembelajaran RL secara bertahap

Step 1: Memulai pembelajaran RL dengan konteks 8K

Step 2: Diperluas ke konteks 16K

Step 3: "24K Magic" - peningkatan performa akhir

Hasil evaluasi akhir

Ringkasan inti (Key Takeaways)

Kesimpulan: demokratisasi scaling RL

Bacaan terkait

1 komentar

Opini Hacker News