Model DeepSeek-R1 Dirilis

(github.com/deepseek-ai)

8 poin oleh GN⁺ 2025-01-21 | 5 komentar | Bagikan ke WhatsApp

DeepSeek merilis model penalaran generasi pertama, DeepSeek-R1-Zero dan DeepSeek-R1
DeepSeek-R1-Zero dilatih hanya dengan reinforcement learning (RL) skala besar, dan secara mandiri memperoleh berbagai kemampuan penalaran
Namun, karena muncul masalah pengulangan/keterbacaan dan pencampuran bahasa, DeepSeek kemudian menghadirkan DeepSeek-R1 yang menambahkan tahap SFT untuk melengkapi kekurangan tersebut dan meningkatkan performa
DeepSeek-R1 mencapai performa setingkat OpenAI-o1 pada tugas matematika, kode, dan penalaran
Untuk mendukung komunitas riset, DeepSeek membuka DeepSeek-R1-Zero, DeepSeek-R1, serta model distillation yang dibuat dengan mentransfer pola penalaran dari model tersebut
Secara khusus, model DeepSeek-R1-Distill-Qwen-32B mencapai performa yang melampaui OpenAI-o1-mini

Ringkasan model

Post-Training: reinforcement learning skala besar untuk model dasar
- DeepSeek-R1-Zero adalah model generasi awal pertama yang menerapkan hanya RL tanpa SFT
- Melalui proses RL, model ini memperoleh berbagai pola penalaran seperti kemampuan eksplorasi Chain-of-thought, verifikasi diri, dan refleksi
- Ini menunjukkan bahwa “bahkan tanpa SFT, model skala besar dapat memperoleh kemampuan penalaran yang kuat hanya dengan RL”
- Berdasarkan proses ini, DeepSeek-R1 menambahkan SFT di tahap tengah untuk semakin memperkuat kemampuan penalaran dan kemampuan penggunaan bahasa secara umum
Distillation: model kecil juga bisa kuat
- DeepSeek mendemonstrasikan bahwa pola penalaran yang dipelajari model besar dapat dipindahkan ke model yang lebih kecil
- Dengan memanfaatkan data yang dihasilkan DeepSeek-R1, mereka melakukan fine-tuning pada seri Qwen, Llama, dan lainnya, dan model dense berukuran kecil pun menunjukkan performa yang baik
- Berbagai model distill dengan ukuran 1.5B, 7B, 8B, 14B, 32B, dan 70B juga dirilis

Unduhan model

DeepSeek-R1 Models

DeepSeek-R1-Zero / DeepSeek-R1
- Parameter: total 671B (parameter aktif nyata 37B)
- Panjang konteks 128K
- Dapat diunduh dari HuggingFace, dan dilatih dengan metode RL berbasis model DeepSeek-V3-Base

DeepSeek-R1-Distill Models

Distillation berbasis seri Qwen2.5 dan Llama3
Menyediakan berbagai ukuran parameter dari 1.5B hingga 70B
Di-fine-tune menggunakan data penalaran berkualitas tinggi yang dihasilkan oleh DeepSeek-R1
Karena beberapa pengaturan (tokenizer, config) telah dimodifikasi, pengaturan yang dianjurkan harus digunakan

Hasil evaluasi

DeepSeek-R1-Evaluation

DeepSeek-R1 meraih skor tinggi pada bahasa Inggris (MMLU, DROP, dll.), kode (Codeforces, LiveCodeBench, dll.), matematika (AIME, MATH-500, dll.), dan bahasa Tionghoa (C-Eval, dll.)
Secara khusus, model ini menunjukkan catatan pass@1 yang tinggi pada bidang matematika seperti AIME dan MATH-500
Dibandingkan dengan OpenAI-o1-mini, Claude, GPT-4, dan lainnya, model ini menunjukkan performa yang kompetitif pada berbagai kategori

Distilled Model Evaluation

Model distillation juga menunjukkan hasil yang sangat baik pada benchmark matematika (AIME, MATH, dll.) dan kode (Codeforces, dll.)
DeepSeek-R1-Distill-Qwen-32B dan DeepSeek-R1-Distill-Llama-70B menunjukkan pass@1 yang tinggi serta performa pemecahan kode yang baik, mengisyaratkan potensi pemanfaatan model yang lebih kecil

Situs chat & platform API

Di chat.deepseek.com, pengguna dapat mencoba bercakap-cakap dengan DeepSeek-R1
Platform API yang kompatibel dengan OpenAI, platform.deepseek.com, juga tersedia

Cara menjalankan secara lokal

DeepSeek-R1 Models

Dengan merujuk ke repositori DeepSeek-V3, model dapat dijalankan setelah memeriksa detail seperti pengaturan panjang maksimum token 128K

DeepSeek-R1-Distill Models

Dapat digunakan dengan cara yang sama seperti model Qwen dan Llama
Contoh: dapat disajikan dengan cepat menggunakan vLLM, SGLang, dan lainnya
Disarankan untuk mengatur temperature sekitar 0.5~0.7

Lisensi

Seri DeepSeek-R1 didistribusikan di bawah lisensi MIT
Namun, perlu diperhatikan bahwa model berbasis Qwen mengikuti Apache 2.0, sedangkan model berbasis Llama mengikuti lisensi llama3.x
Memiliki kebijakan lisensi yang fleksibel, termasuk izin untuk penggunaan komersial serta pembuatan model turunan dan hasil modifikasi

5 komentar

xguru 2025-01-21

Deepseek - raksasa senyap yang memimpin persaingan AI di Tiongkok
Deepseek V3 menunjukkan kinerja yang kurang baik pada benchmark yang menguji apakah model mengalami overfitting
Catatan tentang DeepSeek v3 - "Apakah ini benar-benar lebih baik daripada GPT-4o atau 3.5 Sonnet?"

crawler 2025-01-21

Saya lihat ada juga yang menambahkan tautan dengan rapi di komentar atau mengutip isi tulisan, apakah ada rangkuman sintaks yang bisa dipakai di komentar? Beberapa hari melihat-lihat, saya makin suka dengan situs ini jadi ingin ikut meninggalkan komentar juga.

savvykang 2025-01-21

https://news.hada.io/guidelines

> Mendukung Markdown
> Didukung baik di isi maupun komentar.
> Pada dasarnya mengikuti spesifikasi CommonMark.
> Gambar tidak didukung.

crawler 2025-01-21

Terima kasih. Saya sempat mencoba memakai kutipan di komentar lain, tapi karena tidak bisa mengedit, saya main aman dengan tidak memakainya. Ternyata Markdown-nya memang benar ya.
Akan saya gunakan dengan baik hehe

GN⁺ 2025-01-21

Komentar Hacker News

Sedang melakukan eksperimen menggunakan versi terkuantisasi dari Llama 3. Menjalankan model dan mencatat log dengan Ollama serta plugin llm-ollama. Setelah model dimuat, berbagai prompt bisa diuji menggunakan uvx. Hasil eksperimen ditulis di blog.
DeepSeek-R1-Zero mengalami masalah seperti pengulangan, keterbacaan, dan campuran bahasa. Untuk mengatasinya, DeepSeek-R1 diperkenalkan. Dalam eksperimen menggunakan OpenAI o1 dan QwQ-32B-Preview, QwQ cenderung terjebak dalam loop pengulangan. DeepSeek-R1 menyelesaikan masalah ini. Model ini tersedia dengan lisensi MIT sehingga lebih banyak orang bisa mengevaluasinya.
Pada pertanyaan yang menanyakan jumlah huruf 'r' dalam "strawberry", model memperlihatkan proses menemukan jawaban yang benar sambil berdebat dengan dirinya sendiri. Disebutkan bahwa proses ini menarik.
Hasil perbandingan antara ChatGPT o1, DeepSeek DeepThink, dan Gemini 2.0 Flash Thinking Experimental menunjukkan bahwa ChatGPT o1 adalah yang terbaik dan DeepSeek yang paling lemah. Saat menguji DeepSeek-R1, performanya terlihat lebih baik dari sebelumnya. Untuk kasus penggunaan pribadi, LLM terasa lebih berguna.
Muncul hasil benchmark yang menunjukkan bahwa model Llama 8B lebih kuat daripada Claude 3.5 Sonnet. Ada ungkapan keterkejutan bahwa model kecil bisa menunjukkan performa sekuat itu.
Disebutkan bahwa sangat mengejutkan sebuah perusahaan kecil yang didirikan setahun lalu bisa bersaing dengan OpenAI. China dinilai melampaui Amerika Serikat di bidang AI, dan karena modelnya disediakan sebagai open source, perusahaan ini dianggap sebagai perusahaan "Open AI" yang sesungguhnya.
Ada ekspektasi awal terhadap DS3, tetapi kemudian ditemukan masalah seperti isu function calling, penurunan kualitas respons, dan kurangnya dukungan. Namun, akibatnya trafik ke API lain berkurang sehingga latensi membaik.
Ada kebingungan mengenai perbedaan antara versi 7b dan 8b. Disebutkan bahwa versi Qwen 7B telah diunggah ke Ollama.

Model DeepSeek-R1 Dirilis

Ringkasan model

Unduhan model

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Hasil evaluasi

DeepSeek-R1-Evaluation

Distilled Model Evaluation

Situs chat & platform API

Cara menjalankan secara lokal

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Lisensi

Bacaan terkait

5 komentar

Komentar Hacker News