Rilis Deepseek R1-0528

(huggingface.co)

1 poin oleh GN⁺ 2025-05-29 | 1 komentar | Bagikan ke WhatsApp

Deepseek R1-0528 dirilis sebagai LLM terbaru
Model ini tersedia sebagai open source, sehingga meningkatkan aksesibilitas dan kemudahan pemanfaatannya
Menunjukkan performa kuat dalam berbagai tugas pemrosesan dan generasi bahasa alami
Menawarkan keunggulan untuk riset dan penggunaan praktis melalui arsitektur yang lebih cepat dan efisien
Muncul sebagai opsi tambahan yang kompetitif di bidang AI

Pengenalan model Deepseek R1-0528

Deepseek R1-0528 adalah large language model (LLM) terbaru yang dapat digunakan dalam bidang pemahaman dan generasi bahasa alami
Model ini dirilis sebagai open source melalui Hugging Face, sehingga peneliti dan pengembang dapat memanfaatkannya secara bebas
Model R1-0528 yang dikembangkan oleh DeepSeek-AI dilatih dengan dataset berskala besar, sehingga dapat diterapkan pada berbagai tugas pemrosesan dan generasi bahasa alami seperti ringkasan teks, terjemahan, tanya jawab, dan generasi kode
Dibandingkan model open source yang telah dirilis sebelumnya, model ini memiliki ciri khas berupa kecepatan inferensi yang lebih unggul dan struktur jaringan yang dioptimalkan
Berkat keunggulan tersebut, model ini semakin menonjol sebagai pilihan yang disukai pengembang yang menginginkan hasil yang cepat dan akurat dalam riset maupun lingkungan industri nyata

Keunikan dan keunggulan model

Deepseek R1-0528 memiliki pembeda dari model LLM yang ada dalam aspek skalabilitas, efisiensi, dan kecepatan
Mengadopsi struktur modular yang memungkinkan pengembang menyesuaikan model dengan mudah dan menerapkannya secara khusus untuk berbagai bahasa atau domain
Berkat algoritme yang ditingkatkan, kecepatan pemrosesan pada tahap pelatihan dan inferensi menjadi lebih baik
Semua pengguna dapat memuat dan menggunakan model ini dengan mudah melalui library Hugging Face

Pemanfaatan dan dampak yang diharapkan

Dapat dimanfaatkan dalam berbagai skenario kerja nyata seperti riset AI, chatbot, pembuatan dokumen otomatis, dan asisten kode
Karena dirilis sebagai open source, penerapan pada dataset nyata serta verifikasi performa model dapat dilakukan dengan lebih leluasa
Peluncuran DeepSeek R1-0528 mendorong iklim persaingan yang sehat dan kemajuan teknologi di komunitas AI global

1 komentar

GN⁺ 2025-05-29

Opini Hacker News

Awalnya mengetahui bahwa DeepSeek R1 kini bisa digunakan melalui openrouter dari 7 penyedia
Tautan
Ini adalah pembaruan DeepSeek R1 asli per 28 Mei, dengan performa yang kira-kira setara OpenAI o1
Sebagai open source, reasoning tokens juga dibuka
Total parameternya 671B, dan hanya 37B yang aktif saat inferensi
Ini model yang sepenuhnya open source
- Penasaran apakah ada model yang bisa diunduh
  Tidak familiar dengan openrouter dan tidak bisa menemukan modelnya di ollama, jadi ingin mencari tahu lebih lanjut
- Sama sekali tidak ada informasi yang diungkap tentang data apa yang digunakan untuk melatih model ini
  Bobot yang bisa diunduh memang dirilis, tetapi pada dasarnya ini bukan open source yang benar-benar dapat direproduksi
  Ada proyek bernama "Open R1" yang sampai data pelatihannya pun dibuka langsung,
  jadi penasaran bagaimana perkembangannya sekarang
  Tautan
- Tidak setuju dengan klaim bahwa DeepSeek R1 itu open source
  Menekankan bahwa bisa diunduh tidak otomatis berarti open source
  Tautan
Agak disayangkan karena hampir tidak ada informasi terkait DeepSeek R1
Tidak ada info benchmark, dan jadi teringat masa ketika Mistral dulu menjatuhkan tautan magnet torrent lewat tweet
- Belakangan ini benchmark rasanya tidak terlalu bermakna
  Fokusnya hanya pada menyesuaikan model ke pengujian yang sudah dipublikasikan,
  sementara perkembangan mendasar untuk meningkatkan generalisasi justru terabaikan
  Jika melihat leaderboard Huggingface, berbagai fine-tuning model open source memang ada di peringkat atas, tetapi tidak benar-benar dipakai luas
  Tautan
- Di tabel benchmark hanya terlihat skor "Overall" dan "Median",
  tetapi tidak ada informasi tentang bagian apa tepatnya yang diuji
  Secara umum terlihat mirip dengan model-model terbaru, tetapi dari sisi biaya ada sedikit keunggulan
  Kekurangannya, seperti r1 sebelumnya, adalah kecepatan inferensi yang lambat (menghabiskan banyak token)
  Tautan tabel
- Cara DeepSeek merilis model ini mirip dengan Mistral dulu, jadi penasaran apakah ini semacam homage yang disengaja
- DeepSeek biasanya mengunggah paper sehari setelah model dirilis
  Rasanya akan lebih rapi kalau jadwal seperti ini sedikit lebih diselaraskan, karena sekarang kabarnya di situs berita jadi agak tersebar ke mana-mana
Menarik bahwa DeepSeek adalah salah satu dari sedikit LLM yang bisa berjalan di iPod Touch dengan versi ios lama terpasang
Suka dengan cara DeepSeek merilis pembaruan baru dengan santai
Walaupun ada peningkatan besar, nuansanya tetap seperti dirilis diam-diam tanpa promosi khusus
- Penasaran apakah peningkatannya memang sebesar itu
  Ingin tahu apakah ada materi perbandingan resmi seperti benchmark
- OpenAI tentu saja, dan Anthropic belakangan juga, sering melebih-lebihkan model baru mereka
  dengan narasi seperti 'seberapa berbahayanya model ini, bagaimana ia melarikan diri, menipu manusia, dan meretas server inti'
  sehingga memberi kesan seperti mimpi buruk, sedangkan DeepSeek merilisnya dengan gaya yang lebih lugas tanpa dramatisasi
- Sepertinya sebenarnya ada pengumuman resmi di WeChat
- Model rilis yang tenang seperti ini memang bagus, tetapi akan lebih baik lagi kalau tetap ada data kuantitatif seperti benchmark
- Timing rilisnya yang bertepatan dengan hari pengumuman laba Nvidia juga terasa sebagai kebetulan yang menarik
Penasaran perangkat keras seperti apa yang dibutuhkan agar orang biasa tetap bisa menggunakan LLM sebesar ini, meskipun lambat
Juga ingin tahu apakah ada cara agar pengguna umum bisa dengan mudah menurunkan pengaturan atau mengecilkan ukuran model untuk dipakai
- Berhasil menjalankan DeepSeek R1 di perangkat lokal dengan offloading dan quantization 1.58bit
  Info terkait: Tautan
  Pengerjaan versi baru juga sedang berlangsung
- Versi quantized 4bit bisa dijalankan di M3 Ultra 512GB
  Harganya cukup mahal
  Cara lain adalah memakai sistem dengan CPU berkinerja tinggi dan RAM DDR5 500GB
  Ini juga tidak murah, dan lebih lambat daripada M3 Ultra
  Opsi lain lagi adalah beberapa GPU Nvidia yang digabung hingga total VRAM 500GB
  Ini yang paling mahal, tetapi cepat
- Perlu server board dual-socket dengan RAM DDR5 768GB dan tambahan GPU 16GB atau lebih untuk pemrosesan prompt
  Butuh biaya jutaan won untuk menjalankannya pada kecepatan 8~10 token/detik
- Menjalankan versi quantized 4bit pada kecepatan sekitar 1,5 token per detik menggunakan Xeon dual-socket bekas seharga 2.000 dolar dengan DDR4 768GB
- Di Amazon bisa digunakan dengan biaya sekitar 1 sen per 10 ribu token
  Ada juga panduan pengaturan manual instance EC2
  Contohnya instance g6e.48xlarge (192 vCPU, RAM 1536GB, 8 GPU L40S Tensor Core, masing-masing 48GB VRAM)
  Biaya penggunaan bulanan sekitar 22 ribu dolar
  Panduan Bedrock DeepSeek
  Panduan deployment manual
Ekspektasi terhadap rilis R1 terbaru cukup besar
Skalanya 685B parameter, tetapi tidak ada model card, release note, penjelasan perubahan, maupun informasi context window
Kualitas output R1 asli mengesankan, tetapi boros token adalah kekurangan yang terasa
Sedang menunggu lebih banyak informasi dibuka
Menarik juga bahwa dibanding o4 mini high, harganya sekitar setengahnya tanpa perbedaan performa yang besar
Juga terlihat bahwa sebagian besar penyedia sedang mengunggah versi quantized
Untuk mencapai performa yang mirip DeepSeek, dibutuhkan setidaknya 8 GPU h100 80GB
- Perkiraan biayanya sekitar 16~24 dolar per jam
  Jika memakai banyak token, ini bisa jauh lebih murah daripada OpenAI
Ingin cepat-cepat mencoba DeepSeek di Groq
- Groq sebenarnya tidak mendukung model DeepSeek asli
  Saat ini hanya mendukung DeepSeek-r1-distill-llama-70b, dan ini adalah model hasil distillation ke llama 70b
  Panduan model Groq

Rilis Deepseek R1-0528

Pengenalan model Deepseek R1-0528

Keunikan dan keunggulan model

Pemanfaatan dan dampak yang diharapkan

Bacaan terkait

1 komentar

Opini Hacker News