1 poin oleh GN⁺ 2025-05-29 | 1 komentar | Bagikan ke WhatsApp
  • Deepseek R1-0528 dirilis sebagai LLM terbaru
  • Model ini tersedia sebagai open source, sehingga meningkatkan aksesibilitas dan kemudahan pemanfaatannya
  • Menunjukkan performa kuat dalam berbagai tugas pemrosesan dan generasi bahasa alami
  • Menawarkan keunggulan untuk riset dan penggunaan praktis melalui arsitektur yang lebih cepat dan efisien
  • Muncul sebagai opsi tambahan yang kompetitif di bidang AI

Pengenalan model Deepseek R1-0528

  • Deepseek R1-0528 adalah large language model (LLM) terbaru yang dapat digunakan dalam bidang pemahaman dan generasi bahasa alami
  • Model ini dirilis sebagai open source melalui Hugging Face, sehingga peneliti dan pengembang dapat memanfaatkannya secara bebas
  • Model R1-0528 yang dikembangkan oleh DeepSeek-AI dilatih dengan dataset berskala besar, sehingga dapat diterapkan pada berbagai tugas pemrosesan dan generasi bahasa alami seperti ringkasan teks, terjemahan, tanya jawab, dan generasi kode
  • Dibandingkan model open source yang telah dirilis sebelumnya, model ini memiliki ciri khas berupa kecepatan inferensi yang lebih unggul dan struktur jaringan yang dioptimalkan
  • Berkat keunggulan tersebut, model ini semakin menonjol sebagai pilihan yang disukai pengembang yang menginginkan hasil yang cepat dan akurat dalam riset maupun lingkungan industri nyata

Keunikan dan keunggulan model

  • Deepseek R1-0528 memiliki pembeda dari model LLM yang ada dalam aspek skalabilitas, efisiensi, dan kecepatan
  • Mengadopsi struktur modular yang memungkinkan pengembang menyesuaikan model dengan mudah dan menerapkannya secara khusus untuk berbagai bahasa atau domain
  • Berkat algoritme yang ditingkatkan, kecepatan pemrosesan pada tahap pelatihan dan inferensi menjadi lebih baik
  • Semua pengguna dapat memuat dan menggunakan model ini dengan mudah melalui library Hugging Face

Pemanfaatan dan dampak yang diharapkan

  • Dapat dimanfaatkan dalam berbagai skenario kerja nyata seperti riset AI, chatbot, pembuatan dokumen otomatis, dan asisten kode
  • Karena dirilis sebagai open source, penerapan pada dataset nyata serta verifikasi performa model dapat dilakukan dengan lebih leluasa
  • Peluncuran DeepSeek R1-0528 mendorong iklim persaingan yang sehat dan kemajuan teknologi di komunitas AI global

1 komentar

 
GN⁺ 2025-05-29
Opini Hacker News
  • Awalnya mengetahui bahwa DeepSeek R1 kini bisa digunakan melalui openrouter dari 7 penyedia
    Tautan
    Ini adalah pembaruan DeepSeek R1 asli per 28 Mei, dengan performa yang kira-kira setara OpenAI o1
    Sebagai open source, reasoning tokens juga dibuka
    Total parameternya 671B, dan hanya 37B yang aktif saat inferensi
    Ini model yang sepenuhnya open source

    • Penasaran apakah ada model yang bisa diunduh
      Tidak familiar dengan openrouter dan tidak bisa menemukan modelnya di ollama, jadi ingin mencari tahu lebih lanjut

    • Sama sekali tidak ada informasi yang diungkap tentang data apa yang digunakan untuk melatih model ini
      Bobot yang bisa diunduh memang dirilis, tetapi pada dasarnya ini bukan open source yang benar-benar dapat direproduksi
      Ada proyek bernama "Open R1" yang sampai data pelatihannya pun dibuka langsung,
      jadi penasaran bagaimana perkembangannya sekarang
      Tautan

    • Tidak setuju dengan klaim bahwa DeepSeek R1 itu open source
      Menekankan bahwa bisa diunduh tidak otomatis berarti open source
      Tautan

  • Agak disayangkan karena hampir tidak ada informasi terkait DeepSeek R1
    Tidak ada info benchmark, dan jadi teringat masa ketika Mistral dulu menjatuhkan tautan magnet torrent lewat tweet

    • Belakangan ini benchmark rasanya tidak terlalu bermakna
      Fokusnya hanya pada menyesuaikan model ke pengujian yang sudah dipublikasikan,
      sementara perkembangan mendasar untuk meningkatkan generalisasi justru terabaikan
      Jika melihat leaderboard Huggingface, berbagai fine-tuning model open source memang ada di peringkat atas, tetapi tidak benar-benar dipakai luas
      Tautan

    • Di tabel benchmark hanya terlihat skor "Overall" dan "Median",
      tetapi tidak ada informasi tentang bagian apa tepatnya yang diuji
      Secara umum terlihat mirip dengan model-model terbaru, tetapi dari sisi biaya ada sedikit keunggulan
      Kekurangannya, seperti r1 sebelumnya, adalah kecepatan inferensi yang lambat (menghabiskan banyak token)
      Tautan tabel

    • Cara DeepSeek merilis model ini mirip dengan Mistral dulu, jadi penasaran apakah ini semacam homage yang disengaja

    • DeepSeek biasanya mengunggah paper sehari setelah model dirilis
      Rasanya akan lebih rapi kalau jadwal seperti ini sedikit lebih diselaraskan, karena sekarang kabarnya di situs berita jadi agak tersebar ke mana-mana

  • Menarik bahwa DeepSeek adalah salah satu dari sedikit LLM yang bisa berjalan di iPod Touch dengan versi ios lama terpasang

  • Suka dengan cara DeepSeek merilis pembaruan baru dengan santai
    Walaupun ada peningkatan besar, nuansanya tetap seperti dirilis diam-diam tanpa promosi khusus

    • Penasaran apakah peningkatannya memang sebesar itu
      Ingin tahu apakah ada materi perbandingan resmi seperti benchmark

    • OpenAI tentu saja, dan Anthropic belakangan juga, sering melebih-lebihkan model baru mereka
      dengan narasi seperti 'seberapa berbahayanya model ini, bagaimana ia melarikan diri, menipu manusia, dan meretas server inti'
      sehingga memberi kesan seperti mimpi buruk, sedangkan DeepSeek merilisnya dengan gaya yang lebih lugas tanpa dramatisasi

    • Sepertinya sebenarnya ada pengumuman resmi di WeChat

    • Model rilis yang tenang seperti ini memang bagus, tetapi akan lebih baik lagi kalau tetap ada data kuantitatif seperti benchmark

    • Timing rilisnya yang bertepatan dengan hari pengumuman laba Nvidia juga terasa sebagai kebetulan yang menarik

  • Penasaran perangkat keras seperti apa yang dibutuhkan agar orang biasa tetap bisa menggunakan LLM sebesar ini, meskipun lambat
    Juga ingin tahu apakah ada cara agar pengguna umum bisa dengan mudah menurunkan pengaturan atau mengecilkan ukuran model untuk dipakai

    • Berhasil menjalankan DeepSeek R1 di perangkat lokal dengan offloading dan quantization 1.58bit
      Info terkait: Tautan
      Pengerjaan versi baru juga sedang berlangsung

    • Versi quantized 4bit bisa dijalankan di M3 Ultra 512GB
      Harganya cukup mahal
      Cara lain adalah memakai sistem dengan CPU berkinerja tinggi dan RAM DDR5 500GB
      Ini juga tidak murah, dan lebih lambat daripada M3 Ultra
      Opsi lain lagi adalah beberapa GPU Nvidia yang digabung hingga total VRAM 500GB
      Ini yang paling mahal, tetapi cepat

    • Perlu server board dual-socket dengan RAM DDR5 768GB dan tambahan GPU 16GB atau lebih untuk pemrosesan prompt
      Butuh biaya jutaan won untuk menjalankannya pada kecepatan 8~10 token/detik

    • Menjalankan versi quantized 4bit pada kecepatan sekitar 1,5 token per detik menggunakan Xeon dual-socket bekas seharga 2.000 dolar dengan DDR4 768GB

    • Di Amazon bisa digunakan dengan biaya sekitar 1 sen per 10 ribu token
      Ada juga panduan pengaturan manual instance EC2
      Contohnya instance g6e.48xlarge (192 vCPU, RAM 1536GB, 8 GPU L40S Tensor Core, masing-masing 48GB VRAM)
      Biaya penggunaan bulanan sekitar 22 ribu dolar
      Panduan Bedrock DeepSeek
      Panduan deployment manual

  • Ekspektasi terhadap rilis R1 terbaru cukup besar
    Skalanya 685B parameter, tetapi tidak ada model card, release note, penjelasan perubahan, maupun informasi context window
    Kualitas output R1 asli mengesankan, tetapi boros token adalah kekurangan yang terasa
    Sedang menunggu lebih banyak informasi dibuka

  • Menarik juga bahwa dibanding o4 mini high, harganya sekitar setengahnya tanpa perbedaan performa yang besar
    Juga terlihat bahwa sebagian besar penyedia sedang mengunggah versi quantized

  • Untuk mencapai performa yang mirip DeepSeek, dibutuhkan setidaknya 8 GPU h100 80GB

    • Perkiraan biayanya sekitar 16~24 dolar per jam
      Jika memakai banyak token, ini bisa jauh lebih murah daripada OpenAI
  • Ingin cepat-cepat mencoba DeepSeek di Groq

    • Groq sebenarnya tidak mendukung model DeepSeek asli
      Saat ini hanya mendukung DeepSeek-r1-distill-llama-70b, dan ini adalah model hasil distillation ke llama 70b
      Panduan model Groq