Open-R1: Proyek reproduksi open source lengkap untuk DeepSeek-R1

(huggingface.co)

16 poin oleh GN⁺ 2025-01-29 | Belum ada komentar. | Bagikan ke WhatsApp

Apa itu DeepSeek-R1?

Model o1 dari OpenAI dilatih dengan menggunakan komputasi yang lebih besar agar LLM dapat melakukan tugas penalaran dengan lebih baik.
DeepSeek-R1 menunjukkan performa yang setara atau lebih baik daripada model o1 dari OpenAI, dan mempelajari cara bernalar tanpa pengawasan manusia melalui pure reinforcement learning (RL).
Perilisan DeepSeek-R1 memunculkan berbagai pertanyaan tentang pengumpulan data, pelatihan model, dan scaling laws.

DeepSeek-R1 adalah model penalaran yang dibangun di atas DeepSeek-V3, dan merupakan model 671B Mixture of Experts (MoE).
DeepSeek-R1-Zero dilatih hanya dengan menggunakan reinforcement learning, serta meningkatkan efisiensi dengan memakai Group Relative Policy Optimization (GRPO).
DeepSeek-R1 menggunakan contoh-contoh kecil pada tahap awal untuk meningkatkan kejelasan dan keterbacaan, lalu melalui tahap reinforcement learning dan refinement untuk menghasilkan jawaban yang konsisten.

Perilisan DeepSeek-R1 sangat membantu komunitas, tetapi dataset dan kodenya tidak dirilis.
Proyek Open-R1 bertujuan merekonstruksi data dan pipeline pelatihan DeepSeek-R1, serta memberikan transparansi tentang bagaimana reinforcement learning meningkatkan penalaran.

Mereproduksi model R1-Distill: mengekstrak dataset penalaran berkualitas tinggi dari DeepSeek-R1 dan melakukan distillation training
Mereplikasi pipeline pelatihan pure RL milik R1-Zero: membangun dataset skala besar untuk matematika, logika, dan kode
Membangun proses pelatihan bertahap dari model dasar → SFT → RL

Ada berbagai cara untuk berkontribusi pada proyek Open-R1, seperti kontribusi kode dan ikut serta dalam diskusi di Hugging Face.
Proyek ini tidak hanya berfokus pada mereplikasi hasil, tetapi juga pada berbagi insight dengan komunitas.