16 poin oleh GN⁺ 2025-01-29 | Belum ada komentar. | Bagikan ke WhatsApp

Apa itu DeepSeek-R1?

  • Model o1 dari OpenAI dilatih dengan menggunakan komputasi yang lebih besar agar LLM dapat melakukan tugas penalaran dengan lebih baik.
  • DeepSeek-R1 menunjukkan performa yang setara atau lebih baik daripada model o1 dari OpenAI, dan mempelajari cara bernalar tanpa pengawasan manusia melalui pure reinforcement learning (RL).
  • Perilisan DeepSeek-R1 memunculkan berbagai pertanyaan tentang pengumpulan data, pelatihan model, dan scaling laws.

Bagaimana mereka melakukannya?

  • DeepSeek-R1 adalah model penalaran yang dibangun di atas DeepSeek-V3, dan merupakan model 671B Mixture of Experts (MoE).
  • DeepSeek-R1-Zero dilatih hanya dengan menggunakan reinforcement learning, serta meningkatkan efisiensi dengan memakai Group Relative Policy Optimization (GRPO).
  • DeepSeek-R1 menggunakan contoh-contoh kecil pada tahap awal untuk meningkatkan kejelasan dan keterbacaan, lalu melalui tahap reinforcement learning dan refinement untuk menghasilkan jawaban yang konsisten.

Open-R1: Bagian-bagian yang hilang

  • Perilisan DeepSeek-R1 sangat membantu komunitas, tetapi dataset dan kodenya tidak dirilis.
  • Proyek Open-R1 bertujuan merekonstruksi data dan pipeline pelatihan DeepSeek-R1, serta memberikan transparansi tentang bagaimana reinforcement learning meningkatkan penalaran.

Rencana bertahap Open-R1

  1. Mereproduksi model R1-Distill: mengekstrak dataset penalaran berkualitas tinggi dari DeepSeek-R1 dan melakukan distillation training
  2. Mereplikasi pipeline pelatihan pure RL milik R1-Zero: membangun dataset skala besar untuk matematika, logika, dan kode
  3. Membangun proses pelatihan bertahap dari model dasar → SFT → RL

Cara berkontribusi

  • Ada berbagai cara untuk berkontribusi pada proyek Open-R1, seperti kontribusi kode dan ikut serta dalam diskusi di Hugging Face.
  • Proyek ini tidak hanya berfokus pada mereplikasi hasil, tetapi juga pada berbagi insight dengan komunitas.

Belum ada komentar.

Belum ada komentar.