DeepSeek-R1 yang Diilustrasikan

(newsletter.languagemodels.co)

2 poin oleh GN⁺ 2025-01-28 | Belum ada komentar. | Bagikan ke WhatsApp

The Illustrated DeepSeek-R1

Pengenalan DeepSeek-R1
- DeepSeek-R1 adalah tonggak penting dalam perkembangan AI dan memberi dampak besar pada komunitas riset dan pengembangan ML.
- Model ini adalah model open-weight, dan juga tersedia versi distilasi berukuran lebih kecil.
- Model ini membagikan dan merefleksikan metode pelatihan untuk mereplikasi model penalaran seperti OpenAI O1.
Ringkasan pelatihan LLM
- DeepSeek-R1, seperti LLM pada umumnya, menghasilkan satu token pada satu waktu dan unggul dalam menyelesaikan masalah matematika serta penalaran.
- Proses umum untuk membuat LLM berkualitas tinggi adalah sebagai berikut:
  1. Tahap language modeling yang memprediksi kata berikutnya menggunakan data web dalam jumlah besar.
  2. Tahap supervised fine-tuning yang membuat model dapat mengikuti instruksi dan menjawab pertanyaan.
  3. Tahap preference tuning yang menyempurnakan perilaku model agar sesuai dengan preferensi manusia.
Proses pelatihan DeepSeek-R1
- DeepSeek-R1 menggunakan base model dari DeepSeek-V3 dan melalui tahap SFT serta preference tuning.
- Tiga hal khusus yang patut diperhatikan dalam proses pembuatan R1:
  1. Data SFT rantai penalaran panjang: mencakup 600 ribu contoh penalaran panjang.
  2. LLM penalaran sementara berkualitas tinggi: model yang dikhususkan untuk penalaran, dibuat melalui sejumlah kecil data berlabel dan reinforcement learning skala besar.
  3. Pembuatan model penalaran melalui reinforcement learning skala besar: menghasilkan contoh penalaran melalui model bernama R1-Zero, lalu menggunakannya untuk melatih model umum.
Karakteristik R1-Zero
- R1-Zero unggul pada tugas penalaran bahkan tanpa set pelatihan SFT berlabel.
- Ini menunjukkan bahwa base model modern telah melampaui tingkat kualitas dan kemampuan tertentu.
- Masalah penalaran dapat diverifikasi atau diberi label secara otomatis.
Pembuatan data penalaran SFT
- Model penalaran sementara menjalani tahap pelatihan SFT menggunakan beberapa ribu contoh masalah penalaran.
- Data ini dibuat dengan mengolah output dari R1-Zero agar lebih mudah dibaca.
Tahap pelatihan RL umum
- R1 unggul baik pada tugas penalaran maupun non-penalaran.
- Model ini diterapkan ke berbagai aplikasi dengan memanfaatkan model reward untuk kegunaan dan keamanan.
Arsitektur
- DeepSeek-R1 terdiri dari 61 blok decoder Transformer.
- Tiga blok pertama adalah layer dense, sedangkan sisanya adalah layer mixture-of-experts.
Kesimpulan
- Ini membantu memahami konsep-konsep utama dari model DeepSeek-R1.
- Informasi tambahan dapat dilihat di buku Hands-On Large Language Models atau di GitHub.

DeepSeek-R1 yang Diilustrasikan

The Illustrated DeepSeek-R1

Bacaan terkait

Belum ada komentar.