8 poin oleh GN⁺ 2025-01-21 | 5 komentar | Bagikan ke WhatsApp
  • DeepSeek merilis model penalaran generasi pertama, DeepSeek-R1-Zero dan DeepSeek-R1
  • DeepSeek-R1-Zero dilatih hanya dengan reinforcement learning (RL) skala besar, dan secara mandiri memperoleh berbagai kemampuan penalaran
  • Namun, karena muncul masalah pengulangan/keterbacaan dan pencampuran bahasa, DeepSeek kemudian menghadirkan DeepSeek-R1 yang menambahkan tahap SFT untuk melengkapi kekurangan tersebut dan meningkatkan performa
  • DeepSeek-R1 mencapai performa setingkat OpenAI-o1 pada tugas matematika, kode, dan penalaran
  • Untuk mendukung komunitas riset, DeepSeek membuka DeepSeek-R1-Zero, DeepSeek-R1, serta model distillation yang dibuat dengan mentransfer pola penalaran dari model tersebut
  • Secara khusus, model DeepSeek-R1-Distill-Qwen-32B mencapai performa yang melampaui OpenAI-o1-mini

Ringkasan model

  • Post-Training: reinforcement learning skala besar untuk model dasar

    • DeepSeek-R1-Zero adalah model generasi awal pertama yang menerapkan hanya RL tanpa SFT
    • Melalui proses RL, model ini memperoleh berbagai pola penalaran seperti kemampuan eksplorasi Chain-of-thought, verifikasi diri, dan refleksi
    • Ini menunjukkan bahwa “bahkan tanpa SFT, model skala besar dapat memperoleh kemampuan penalaran yang kuat hanya dengan RL”
    • Berdasarkan proses ini, DeepSeek-R1 menambahkan SFT di tahap tengah untuk semakin memperkuat kemampuan penalaran dan kemampuan penggunaan bahasa secara umum
  • Distillation: model kecil juga bisa kuat

    • DeepSeek mendemonstrasikan bahwa pola penalaran yang dipelajari model besar dapat dipindahkan ke model yang lebih kecil
    • Dengan memanfaatkan data yang dihasilkan DeepSeek-R1, mereka melakukan fine-tuning pada seri Qwen, Llama, dan lainnya, dan model dense berukuran kecil pun menunjukkan performa yang baik
    • Berbagai model distill dengan ukuran 1.5B, 7B, 8B, 14B, 32B, dan 70B juga dirilis

Unduhan model

DeepSeek-R1 Models

  • DeepSeek-R1-Zero / DeepSeek-R1
    • Parameter: total 671B (parameter aktif nyata 37B)
    • Panjang konteks 128K
    • Dapat diunduh dari HuggingFace, dan dilatih dengan metode RL berbasis model DeepSeek-V3-Base

DeepSeek-R1-Distill Models

  • Distillation berbasis seri Qwen2.5 dan Llama3
  • Menyediakan berbagai ukuran parameter dari 1.5B hingga 70B
  • Di-fine-tune menggunakan data penalaran berkualitas tinggi yang dihasilkan oleh DeepSeek-R1
  • Karena beberapa pengaturan (tokenizer, config) telah dimodifikasi, pengaturan yang dianjurkan harus digunakan

Hasil evaluasi

DeepSeek-R1-Evaluation

  • DeepSeek-R1 meraih skor tinggi pada bahasa Inggris (MMLU, DROP, dll.), kode (Codeforces, LiveCodeBench, dll.), matematika (AIME, MATH-500, dll.), dan bahasa Tionghoa (C-Eval, dll.)
  • Secara khusus, model ini menunjukkan catatan pass@1 yang tinggi pada bidang matematika seperti AIME dan MATH-500
  • Dibandingkan dengan OpenAI-o1-mini, Claude, GPT-4, dan lainnya, model ini menunjukkan performa yang kompetitif pada berbagai kategori

Distilled Model Evaluation

  • Model distillation juga menunjukkan hasil yang sangat baik pada benchmark matematika (AIME, MATH, dll.) dan kode (Codeforces, dll.)
  • DeepSeek-R1-Distill-Qwen-32B dan DeepSeek-R1-Distill-Llama-70B menunjukkan pass@1 yang tinggi serta performa pemecahan kode yang baik, mengisyaratkan potensi pemanfaatan model yang lebih kecil

Situs chat & platform API

Cara menjalankan secara lokal

DeepSeek-R1 Models

  • Dengan merujuk ke repositori DeepSeek-V3, model dapat dijalankan setelah memeriksa detail seperti pengaturan panjang maksimum token 128K

DeepSeek-R1-Distill Models

  • Dapat digunakan dengan cara yang sama seperti model Qwen dan Llama
  • Contoh: dapat disajikan dengan cepat menggunakan vLLM, SGLang, dan lainnya
  • Disarankan untuk mengatur temperature sekitar 0.5~0.7

Lisensi

  • Seri DeepSeek-R1 didistribusikan di bawah lisensi MIT
  • Namun, perlu diperhatikan bahwa model berbasis Qwen mengikuti Apache 2.0, sedangkan model berbasis Llama mengikuti lisensi llama3.x
  • Memiliki kebijakan lisensi yang fleksibel, termasuk izin untuk penggunaan komersial serta pembuatan model turunan dan hasil modifikasi

5 komentar

 
crawler 2025-01-21

Saya lihat ada juga yang menambahkan tautan dengan rapi di komentar atau mengutip isi tulisan, apakah ada rangkuman sintaks yang bisa dipakai di komentar? Beberapa hari melihat-lihat, saya makin suka dengan situs ini jadi ingin ikut meninggalkan komentar juga.

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> Mendukung Markdown
> Didukung baik di isi maupun komentar.
> Pada dasarnya mengikuti spesifikasi CommonMark.
> Gambar tidak didukung.

 
crawler 2025-01-21

Terima kasih. Saya sempat mencoba memakai kutipan di komentar lain, tapi karena tidak bisa mengedit, saya main aman dengan tidak memakainya. Ternyata Markdown-nya memang benar ya.
Akan saya gunakan dengan baik hehe

 
GN⁺ 2025-01-21
Komentar Hacker News
  • Sedang melakukan eksperimen menggunakan versi terkuantisasi dari Llama 3. Menjalankan model dan mencatat log dengan Ollama serta plugin llm-ollama. Setelah model dimuat, berbagai prompt bisa diuji menggunakan uvx. Hasil eksperimen ditulis di blog.

  • DeepSeek-R1-Zero mengalami masalah seperti pengulangan, keterbacaan, dan campuran bahasa. Untuk mengatasinya, DeepSeek-R1 diperkenalkan. Dalam eksperimen menggunakan OpenAI o1 dan QwQ-32B-Preview, QwQ cenderung terjebak dalam loop pengulangan. DeepSeek-R1 menyelesaikan masalah ini. Model ini tersedia dengan lisensi MIT sehingga lebih banyak orang bisa mengevaluasinya.

  • Pada pertanyaan yang menanyakan jumlah huruf 'r' dalam "strawberry", model memperlihatkan proses menemukan jawaban yang benar sambil berdebat dengan dirinya sendiri. Disebutkan bahwa proses ini menarik.

  • Hasil perbandingan antara ChatGPT o1, DeepSeek DeepThink, dan Gemini 2.0 Flash Thinking Experimental menunjukkan bahwa ChatGPT o1 adalah yang terbaik dan DeepSeek yang paling lemah. Saat menguji DeepSeek-R1, performanya terlihat lebih baik dari sebelumnya. Untuk kasus penggunaan pribadi, LLM terasa lebih berguna.

  • Muncul hasil benchmark yang menunjukkan bahwa model Llama 8B lebih kuat daripada Claude 3.5 Sonnet. Ada ungkapan keterkejutan bahwa model kecil bisa menunjukkan performa sekuat itu.

  • Disebutkan bahwa sangat mengejutkan sebuah perusahaan kecil yang didirikan setahun lalu bisa bersaing dengan OpenAI. China dinilai melampaui Amerika Serikat di bidang AI, dan karena modelnya disediakan sebagai open source, perusahaan ini dianggap sebagai perusahaan "Open AI" yang sesungguhnya.

  • Ada ekspektasi awal terhadap DS3, tetapi kemudian ditemukan masalah seperti isu function calling, penurunan kualitas respons, dan kurangnya dukungan. Namun, akibatnya trafik ke API lain berkurang sehingga latensi membaik.

  • Ada kebingungan mengenai perbedaan antara versi 7b dan 8b. Disebutkan bahwa versi Qwen 7B telah diunggah ke Ollama.