Menjalankan model DeepSeek-R1 Dynamic 1.58-bit

(unsloth.ai)

17 poin oleh GN⁺ 2025-01-29 | 1 komentar | Bagikan ke WhatsApp

DeepSeek-R1 adalah model open-source dengan performa yang sebanding dengan model OpenAI O1 Reasoning
Model yang awalnya berukuran 720GB diperkecil menjadi 131GB, mencapai pengurangan ukuran sebesar 80%
Dengan menggunakan teknik kuantisasi dinamis, beberapa layer dipertahankan pada bit yang lebih tinggi (misalnya 4bit) dan sebagian besar layer MoE (Mixture of Experts) diproses pada 1.58bit

Fitur utama

Spesifikasi minimum: Dapat dijalankan di CPU dengan RAM 20GB, tetapi kecepatannya lambat
Performa optimal: Memerlukan total VRAM dan RAM minimal 80GB, dengan VRAM yang direkomendasikan 160GB (2 GPU H100 80GB)
Versi kuantisasi dinamis (131GB~212GB) tersedia di Hugging Face: DeepSeek-R1-GGUF

Jenis model kuantisasi dinamis

Tersedia total 4 versi kuantisasi:
- 131GB, 158GB, 183GB, 212GB (2bit biasa)
Menggunakan importance matrix (imatrix) untuk mengoptimalkan kuantisasi
Metode kuantisasi dan kebutuhan hardware berbeda untuk tiap model

Benchmark dan uji performa

Skor untuk 10 item evaluasi diukur berdasarkan pembuatan game Flappy Bird (pass@3)
Skor model kuantisasi dinamis 1.58bit adalah sebagai berikut:
- model 131GB: 6.92
- model 158GB: 9.08
- model 183GB: 9.17
Model kuantisasi non-dinamis menghasilkan error berulang atau hasil yang salah

Pemanfaatan struktur DeepSeek-R1

Melalui analisis struktur DeepSeek-R1, bagian yang sangat sensitif terhadap kuantisasi dipertahankan pada resolusi tinggi
- 3 layer dense pertama dipertahankan pada 4~6bit
- Sebagian besar layer MoE dikuantisasi pada 1.58bit
- Modul MLA(Memory Layers Attention) dan bagian down_proj dipertahankan pada presisi tinggi
Sekitar 88% bobot dikuantisasi pada 1.58bit untuk mengurangi ukuran model

Menyelesaikan masalah template chat dan pemrosesan token

Di semua versi, template chat menggunakan token <|begin_of_sentence|> dan <|end_of_sentence|>
Token EOS sempat disetel dengan keliru sehingga menyebabkan masalah generasi tanpa akhir, tetapi kini sudah diperbaiki

1 komentar

GN⁺ 2025-01-29

Opini Hacker News

Pengurangan ukuran sebesar 80% adalah pencapaian yang mengejutkan, dan versi 1,58-bit yang berjalan pada dual H100 dengan 140 token/detik sangat mengesankan. Namun, masih dipertanyakan apakah ini praktis bagi kebanyakan orang. Bisa dijalankan dengan 24GB VRAM atau 20GB RAM, tetapi terlalu lambat. Ada juga masalah pengulangan. Pengulangan pada Pygame mengurangi makna kuantisasi ini. Ada solusi, tetapi itu bukan penyelesaian masalah yang mendasar. Fakta bahwa ini dibuat mudah diakses di Hugging Face dan pendekatan kuantisasi dinamisnya sangat bagus. Menguntungkan bagi tim kecil. Namun, tetap membutuhkan perangkat keras yang mahal.
Saat menjalankan DeepSeek di RTX 4090, modelnya memang harus muat di VRAM, tetapi tetap lambat. Arsitektur memori bersama Apple lebih menguntungkan. Mx Ultra 192GB dapat menangani model besar secara efisien. Sudah waktunya membatalkan langganan OpenAI.
Pengurangan ukuran 80% pada DeepSeek-R1 sungguh mengejutkan. Model besar menjadi lebih mudah diakses oleh lebih banyak orang. Kecepatan 140 token/detik pada dual H100 dengan kuantisasi 1,58-bit sangat mengesankan. Ini dapat digunakan oleh perusahaan kecil atau menengah untuk aplikasi lokal. Ini adalah keuntungan besar untuk pekerjaan agen yang membutuhkan latensi rendah.
Total VRAM + RAM minimal harus di atas 80GB agar memberikan kinerja optimal. Ini bisa dicoba pada server berdaya rendah/berbiaya rendah. Sistem Ryzen 5500 + RAM 64GB + 7x RTX 3060 12GB dapat dibangun dengan biaya 1600 euro. Konsumsi dayanya sekitar 520 watt. Mulai dengan board AM4 dan RTX 3060 12GB bekas. GPU tambahan dihubungkan dengan pcie riser/extender. Bagus untuk belajar dan menambah pengalaman.
Jika semua layer dikuantisasi ke 1,58-bit, akan terjadi pengulangan tak terbatas. Menarik melihat bagaimana penulis blog post ini mencari seed tertentu. Kerja yang bagus.
Penilaian terhadap R1 masih belum jelas. Klaim bahwa model ini dilatih dengan $5M sedang berdampak besar pada pasar. Ingin tahu apakah itu sudah diverifikasi.
Jika sudah berinvestasi pada mesin 100x, tetapi ternyata mesin 10x juga bisa, saya tidak mengerti mengapa tidak memiliki 10 mesin 10x. Perangkat keras dan data bisa didaur ulang untuk membuat beberapa instance model yang lebih efisien.
Pekerjaan Danielhanchen sangat mengesankan. Unsloth luar biasa, dan kemampuannya untuk cepat beradaptasi dengan model baru serta memperbaiki bug pada implementasi dasar sungguh menakjubkan. Lab yang serius seharusnya memberinya keunggulan beberapa jam.
Pengurangan ukuran model dan tetap terjaganya konsistensi sungguh mengesankan. Namun, masih dipertanyakan seberapa besar efektivitasnya benar-benar dipertahankan. Flappy bird adalah game yang terkenal, tetapi tes yang lebih baik adalah apakah R1 dan o1 dapat menyelesaikan masalah yang tidak bisa dipecahkan model lain.
Akan bagus jika model dasar generasi berikutnya dirancang agar dapat melakukan inferensi pada 128GB VRAM dengan kuantisasi 8-bit. Misalnya, fondasi berbasis MoE yang kuat dengan 16 miliar parameter aktif dan 6~7 expert kemungkinan bisa berjalan di MacBook RAM 128GB.

Menjalankan model DeepSeek-R1 Dynamic 1.58-bit

Fitur utama

Jenis model kuantisasi dinamis

Benchmark dan uji performa

Pemanfaatan struktur DeepSeek-R1

Menyelesaikan masalah template chat dan pemrosesan token

Bacaan terkait

1 komentar

Opini Hacker News