DeepSeek-R1 yang Diilustrasikan
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
Pengenalan DeepSeek-R1
- DeepSeek-R1 adalah tonggak penting dalam perkembangan AI dan memberi dampak besar pada komunitas riset dan pengembangan ML.
- Model ini adalah model open-weight, dan juga tersedia versi distilasi berukuran lebih kecil.
- Model ini membagikan dan merefleksikan metode pelatihan untuk mereplikasi model penalaran seperti OpenAI O1.
-
Ringkasan pelatihan LLM
- DeepSeek-R1, seperti LLM pada umumnya, menghasilkan satu token pada satu waktu dan unggul dalam menyelesaikan masalah matematika serta penalaran.
- Proses umum untuk membuat LLM berkualitas tinggi adalah sebagai berikut:
- Tahap language modeling yang memprediksi kata berikutnya menggunakan data web dalam jumlah besar.
- Tahap supervised fine-tuning yang membuat model dapat mengikuti instruksi dan menjawab pertanyaan.
- Tahap preference tuning yang menyempurnakan perilaku model agar sesuai dengan preferensi manusia.
-
Proses pelatihan DeepSeek-R1
- DeepSeek-R1 menggunakan base model dari DeepSeek-V3 dan melalui tahap SFT serta preference tuning.
- Tiga hal khusus yang patut diperhatikan dalam proses pembuatan R1:
- Data SFT rantai penalaran panjang: mencakup 600 ribu contoh penalaran panjang.
- LLM penalaran sementara berkualitas tinggi: model yang dikhususkan untuk penalaran, dibuat melalui sejumlah kecil data berlabel dan reinforcement learning skala besar.
- Pembuatan model penalaran melalui reinforcement learning skala besar: menghasilkan contoh penalaran melalui model bernama R1-Zero, lalu menggunakannya untuk melatih model umum.
-
Karakteristik R1-Zero
- R1-Zero unggul pada tugas penalaran bahkan tanpa set pelatihan SFT berlabel.
- Ini menunjukkan bahwa base model modern telah melampaui tingkat kualitas dan kemampuan tertentu.
- Masalah penalaran dapat diverifikasi atau diberi label secara otomatis.
-
Pembuatan data penalaran SFT
- Model penalaran sementara menjalani tahap pelatihan SFT menggunakan beberapa ribu contoh masalah penalaran.
- Data ini dibuat dengan mengolah output dari R1-Zero agar lebih mudah dibaca.
-
Tahap pelatihan RL umum
- R1 unggul baik pada tugas penalaran maupun non-penalaran.
- Model ini diterapkan ke berbagai aplikasi dengan memanfaatkan model reward untuk kegunaan dan keamanan.
-
Arsitektur
- DeepSeek-R1 terdiri dari 61 blok decoder Transformer.
- Tiga blok pertama adalah layer dense, sedangkan sisanya adalah layer mixture-of-experts.
-
Kesimpulan
- Ini membantu memahami konsep-konsep utama dari model DeepSeek-R1.
- Informasi tambahan dapat dilihat di buku Hands-On Large Language Models atau di GitHub.
Belum ada komentar.