2 poin oleh GN⁺ 2025-01-28 | Belum ada komentar. | Bagikan ke WhatsApp

The Illustrated DeepSeek-R1

  • Pengenalan DeepSeek-R1

    • DeepSeek-R1 adalah tonggak penting dalam perkembangan AI dan memberi dampak besar pada komunitas riset dan pengembangan ML.
    • Model ini adalah model open-weight, dan juga tersedia versi distilasi berukuran lebih kecil.
    • Model ini membagikan dan merefleksikan metode pelatihan untuk mereplikasi model penalaran seperti OpenAI O1.
  • Ringkasan pelatihan LLM

    • DeepSeek-R1, seperti LLM pada umumnya, menghasilkan satu token pada satu waktu dan unggul dalam menyelesaikan masalah matematika serta penalaran.
    • Proses umum untuk membuat LLM berkualitas tinggi adalah sebagai berikut:
      1. Tahap language modeling yang memprediksi kata berikutnya menggunakan data web dalam jumlah besar.
      2. Tahap supervised fine-tuning yang membuat model dapat mengikuti instruksi dan menjawab pertanyaan.
      3. Tahap preference tuning yang menyempurnakan perilaku model agar sesuai dengan preferensi manusia.
  • Proses pelatihan DeepSeek-R1

    • DeepSeek-R1 menggunakan base model dari DeepSeek-V3 dan melalui tahap SFT serta preference tuning.
    • Tiga hal khusus yang patut diperhatikan dalam proses pembuatan R1:
      1. Data SFT rantai penalaran panjang: mencakup 600 ribu contoh penalaran panjang.
      2. LLM penalaran sementara berkualitas tinggi: model yang dikhususkan untuk penalaran, dibuat melalui sejumlah kecil data berlabel dan reinforcement learning skala besar.
      3. Pembuatan model penalaran melalui reinforcement learning skala besar: menghasilkan contoh penalaran melalui model bernama R1-Zero, lalu menggunakannya untuk melatih model umum.
  • Karakteristik R1-Zero

    • R1-Zero unggul pada tugas penalaran bahkan tanpa set pelatihan SFT berlabel.
    • Ini menunjukkan bahwa base model modern telah melampaui tingkat kualitas dan kemampuan tertentu.
    • Masalah penalaran dapat diverifikasi atau diberi label secara otomatis.
  • Pembuatan data penalaran SFT

    • Model penalaran sementara menjalani tahap pelatihan SFT menggunakan beberapa ribu contoh masalah penalaran.
    • Data ini dibuat dengan mengolah output dari R1-Zero agar lebih mudah dibaca.
  • Tahap pelatihan RL umum

    • R1 unggul baik pada tugas penalaran maupun non-penalaran.
    • Model ini diterapkan ke berbagai aplikasi dengan memanfaatkan model reward untuk kegunaan dan keamanan.
  • Arsitektur

    • DeepSeek-R1 terdiri dari 61 blok decoder Transformer.
    • Tiga blok pertama adalah layer dense, sedangkan sisanya adalah layer mixture-of-experts.
  • Kesimpulan

    • Ini membantu memahami konsep-konsep utama dari model DeepSeek-R1.
    • Informasi tambahan dapat dilihat di buku Hands-On Large Language Models atau di GitHub.

Belum ada komentar.

Belum ada komentar.