Beberapa catatan tentang DS4

(antirez.com)

1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp

DwarfStar 4 menyebar lebih cepat dari perkiraan, dan menunjukkan adanya permintaan untuk pengalaman AI lokal yang berpusat pada satu model
Penyebaran cepat ini didorong oleh DeepSeek v4 Flash dan kuantisasi asimetris 2/8-bit, sehingga dapat dijalankan dengan RAM 96GB atau 128GB
DS4 bukan proyek yang terikat pada model tertentu, melainkan ingin menempatkan model open-weight terbaru yang cepat sebagai pusatnya pada perangkat GPU in a box
Untuk inferensi lokal, pendekatan memanggil model spesialis seperti ds4-coding, ds4-legal, dan ds4-medical sesuai pertanyaan tampak masuk akal
Fokus berikutnya adalah benchmark kualitas, agen coding, CI berbasis perangkat keras rumahan, perluasan porting, serta inferensi terdistribusi serial dan paralel

Penyebaran cepat DS4 dan latar belakangnya

DwarfStar 4 mendapatkan popularitas lebih cepat dari perkiraan, dan menunjukkan permintaan akan pengalaman AI lokal yang berfokus pada integrasi satu model
Penyebaran cepat ini dipicu oleh kemunculan model semi-frontier seperti DeepSeek v4 Flash, performa dan kecepatan yang cukup besar hingga mengubah lanskap inferensi lokal, serta kombinasi kuantisasi asimetris 2/8-bit yang kuat
Kombinasi ini memungkinkan model dijalankan hanya dengan RAM 96GB atau 128GB
Pengalaman dari gerakan AI lokal yang terakumulasi selama beberapa tahun terakhir memengaruhi kecepatan pengembangan DS4, dan tanpa bantuan GPT 5.5 kemungkinan akan sulit dibuat hanya dalam satu minggu
Minggu pertama terasa menyenangkan tetapi melelahkan, dengan rata-rata 14 jam kerja per hari, dan intensitasnya mirip dengan beberapa bulan awal Redis

Arah ke depan

DS4 bukan proyek yang dimulai dan berakhir dengan DeepSeek v4 Flash; seiring waktu, model intinya bisa berubah
Tujuannya adalah menempatkan model open-weight terbaru yang benar-benar berjalan cepat sebagai pusat DS4 pada perangkat “GPU in a box” seperti Mac berperforma tinggi atau DGX Spark
Kandidat berikutnya adalah DeepSeek v4 Flash yang akan dirilis sebagai checkpoint baru, dan versi untuk coding maupun varian pakar seperti hukum dan medis juga dimungkinkan
Dalam inferensi lokal, pendekatan memanggil model seperti ds4-coding, ds4-legal, ds4-medical sesuai pertanyaan tampak bermakna
Ini bisa dibilang pertama kalinya pekerjaan serius yang biasanya ditanyakan ke Claude atau GPT mulai dipercayakan ke model lokal
Pengalaman menggunakan LLM dengan lebih bebas melalui vector steering juga menjadi mungkin, dan DS4 memberikan pengalaman yang jauh lebih dekat ke model frontier online dibanding model lokal kecil
Setelah beberapa hari awal yang kacau, proyek ini berencana berfokus pada benchmark kualitas, agen coding, pengujian CI berbasis perangkat keras rumahan, lebih banyak porting, dan inferensi terdistribusi
Inferensi terdistribusi mencakup pendekatan serial dan paralel, dan tetap menjadi tugas penting ke depan
AI terlalu penting untuk dibiarkan hanya sebagai layanan yang disediakan

1 komentar

GN⁺ 5 jam lalu

Pendapat Hacker News

DwarfStar4 adalah runtime inferensi LLM kecil yang bisa menjalankan DeepSeek 4, dan dari tulisan blognya tampaknya saat ini membutuhkan 96GB VRAM
Ini penjelasan untuk orang yang kurang konteks :-)
- Itu bukan model penuh, melainkan versi Flash, dan kuantisasi juga kira-kira di level Q2~Q3, jadi meski mengesankan, itu cukup berbeda dari model penuh
- Ada bagian yang menyebut butuh 96GB VRAM; saya penasaran apakah ada yang sudah mencoba menjalankannya di Mac dengan RAM lebih kecil
  Sepertinya tetap bisa jalan, hanya mungkin sedikit lebih lambat karena lapisan model diambil dari penyimpanan
- Saya penasaran apa bedanya DwarfStar4 dengan llama.cpp
Saya sangat penasaran di titik mana kecerdasan untuk coding akan mencapai level “cukup”
Pada titik tertentu, model yang kurang pintar bisa dibiarkan mengerjakan masalah lebih lama untuk mencapai hasil yang sama, dan kalau saya tidak ikut campur, pada akhirnya hasilnya setara
DeepSeek V4 Pro terasa hampir sampai di titik itu, dan Flash mungkin juga
Kalau titik itu tercapai, saya penasaran seberapa banyak model bisnis Anthropic saat ini akan runtuh
Sampai sekarang, membayar untuk model paling pintar jelas selalu sepadan, tapi kini tampak jelas bahwa ruang pertumbuhan untuk konsep itu terbatas
Pertanyaannya adalah seberapa panjang sisa landasannya, dan saya juga penasaran apakah Anthropic buru-buru merambah area enterprise dan produktivitas karena mereka sudah melihat arah tren ini
- Model yang lebih pintar kadang memang bisa langsung melakukan hal yang tidak bisa dilakukan model kecil
  Rasanya ini bukan sekadar soal menunggu lebih lama
- Pada akhirnya ini akan selalu kembali ke soal biaya
  Ini soal keseimbangan antara waktu developer, biaya developer, biaya AI, dan produktivitas developer
  Melihat 4.6, untuk perusahaan biasa sepertinya sudah mendekati batas biaya yang bisa ditoleransi, jadi variabel lain perlu berubah
- Agen coding open source Kilo menguji dan membandingkan Deepseek v4 Pro dan Flash dengan Opus 4.7 dan Kimi K2[1]
  Hasilnya cukup baik, tetapi skornya jauh di bawah Opus, dan bahkan dengan harga promosi rilis Deepseek saat ini, biayanya hampir sama
  Struktur biaya ini menarik; saya melihat hal serupa pada Sonnet dan Opus, dan saat melakukan benchmark sendiri juga ada model yang harga per token-nya tampak bagus, tetapi memakai token terlalu banyak sehingga total biayanya jadi sama dengan model yang “lebih mahal”
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- Untuk programmer hobi, level cukup bagus mungkin akan tercapai cukup cepat, tetapi perusahaan tetap tampaknya akan membayar untuk model yang lebih cepat dan lebih pintar
  Kenapa harus membuat programmer menunggu
Senang menemukan alat yang fokusnya sempit seperti ini
Backend yang didukung terutama menargetkan Metal, dimulai dari MacBook dengan RAM 96GB
NVIDIA CUDA memberi perhatian khusus pada DGX Spark, dan AMD ROCm hanya didukung di branch rocm
Karena antirez sendiri tidak punya akses langsung ke hardwarenya, branch itu dipisahkan dari main dan komunitas yang me-rebase saat perlu
Proyek ini tidak akan ada tanpa llama.cpp dan GGML, dan ada juga catatan untuk membaca bagian ucapan terima kasih
Namun tampaknya offloading ke system RAM masih belum didukung[0]
Jadi saya juga harus terus memantau issue llama.cpp[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- Katanya AMD ROCm hanya didukung di branch rocm; saya penasaran apakah ada yang benar-benar sudah mencobanya
  Thread ini banyak membahas MacBook Pro, tetapi saya ingin mencobanya di AMD Halo Strix dengan 128GB unified memory
- Seandainya saja saya masih bisa membeli Mac dengan RAM sebanyak itu
Saya sudah mencoba versi Q4 lewat jaringan lokal di Mac Studio, dan hasilnya bagus
Saya memakainya bersama beberapa agen, dan pernah sampai lupa bahwa ini model lokal karena kerjanya terlalu bagus
Tapi saya tetap ragu apakah benar-benar perlu agen lain lagi
Saya menjalankannya dengan Pi, tetapi system prompt Claude Code terlalu berat jika melihat kecepatan prefill, meski hasilnya sangat bagus
OpenCode juga pilihan yang bagus
Saya penasaran apakah ada manfaat tambahan kalau membuat satu alat serupa lagi khusus untuk Deepseek 4
- Dari sisi fungsi, tidak perlu ada agen lain lagi
  Tapi jika mengikuti ide DS4 sendiri, agen API dibuat melakukan hal-hal aneh seperti menerjemahkan sintaks DSML ke JSON, dan akibatnya muncul masalah normalisasi atau checkpointing cache KV
  Terlepas memang begitu atau tidak, tetap ada nilai dalam menyediakan alternatif yang lebih masuk akal
  Saya juga kurang paham kenapa di area ini tidak lebih banyak yang ditulis dalam C/Go/Rust untuk mendapatkan kontrol, kecepatan, dan pengurangan dependensi
  Di sisi TUI juga masih banyak yang bisa dibayangkan
  Kebanyakan proyek punya masalah hanya menyalin apa yang sudah ada; misalnya saya membuat hal seperti ini hanya dalam 20 menit: https://x.com/antirez/status/2055190821373116619
  Sekarang kode sudah murah, dan nilai ide justru makin besar
  Saya tidak yakin pola pikir seperti “apakah kita butuh XYZ lagi?” masih tepat hari ini
  Mungkin tetap bernilai hanya untuk mengeksplorasi ide baru
  Secara pribadi saya tidak suka memakai ekosistem JavaScript / Node untuk menulis kode, jadi saat mengeksplorasi TUI baru atau workflow agen, memakai alat yang lebih nyaman akan mengubah hasil dan proses iterasinya
- DS4 adalah mesin inferensi, bukan execution harness
  Ia menyediakan server API inferensi, lalu coding harness dihubungkan ke sana
Saat ini saya belum bisa memakainya karena keterbatasan hardware, tapi saya suka idenya. Saya cuma punya M2 Max dengan 96GB
Saya paham kalau bagi pengguna umum atau komputer massal, ini mungkin terlihat tidak bisa dipakai atau malah lebih buruk
Ini mengingatkan saya pada masa ketika komputer rumahan dulu dianggap mainan sebelum menjadi komputer pribadi
Kombinasi yang masih lumayan bisa dipakai di hardware saya saat ini adalah pi agent + llama.cpp + model nemotron cascade-2
Bisa sampai konteks 1M, dan karena arsitekturnya hibrida, ia tidak runtuh seperti 1/N² pada kedalaman konteks 10K·50K·100K yang dipakai agen kode
Beberapa hari lalu di pesawat, tanpa internet pun saya bisa menjalankan pi agent dengan serving llama.cpp, dan meski hanya sekitar 40~30 token/detik, tetap cukup bisa dipakai sampai terasa lucu
Biasanya saya tahu kecepatan API sekitar dua kali lipatnya, sekitar 60~80 token/detik
Saat inferensi, sensor menunjukkan konsumsi 60W, dan baterai mungkin sulit bertahan lebih dari 3 jam
Ukuran modelnya cuma 30B, jadi masih ada banyak ruang untuk cache KV dan program lain, dan tetap cukup baik bahkan dengan kuantisasi 8-bit yang longgar
MoE A3B dengan hanya 3B parameter aktif sekaligus tampaknya adalah batas maksimum yang masih bisa ditangani M2 Max yang mulai menua
- Saya tidak tahu apakah perilakunya berbeda di macOS, tetapi dengan kombinasi CUDA dan DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf, itu muat dalam 96GB VRAM termasuk konteks
  Jadi secara teori seharusnya memungkinkan, kecuali macOS secara default memakai beberapa GB RAM/VRAM untuk OS atau display
- Sepertinya itu juga akan berjalan di komputer tersebut
  Ada beberapa laporan positif
- 96GB seharusnya cukup untuk berjalan, terutama dengan konteks terbatas
  Hanya saja M2 Max memang agak lambat
Mengejutkan karena rasanya sangat dekat dengan Claude
Tentu jauh lebih lambat, tetapi saya tidak yakin ia jauh lebih bodoh
Menariknya, kuantisasi imatrix tampaknya lebih baik daripada kuantisasi apa pun yang dipakai backend inferensi zdr milik OpenRouter
Kemarin model itu sadar sendiri bahwa proses servernya adalah dirinya sendiri tanpa perlu saya beri tahu, dan itu pertama kalinya saya melihat hal seperti itu dari model lokal
- Saya penasaran prompt apa yang Anda berikan
- Ini jelas pengujian yang sifatnya anekdotal, tetapi DeepseekV4 Pro lebih baik daripada Sonnet untuk coding
  Jauh lebih lambat, tetapi dengan promosi saat ini terutama jadi beberapa kali lebih murah
Rasanya belum dijelaskan kenapa perlu membuat mesin inferensi baru untuk tiap model
Tinggal pakai llama.cpp saja, dan sudah banyak orang mengerjakan integrasi llama.cpp
Ini berarti mencurahkan banyak usaha ke satu model, dan kemungkinan cepat usang kalau muncul model lain yang lebih baik
Dalam beberapa diskusi, orang-orang sampai membuat PR untuk branch llama.cpp dan ds4 sekaligus, sehingga tenaga langka yang menginvestasikan waktu pengembangan untuk model ini jadi terpecah
- Jauh lebih mudah bekerja pada codebase C yang fokus dan kita miliki sendiri dibanding codebase C++ matang yang rumit dan bukan milik kita
  Tapi tidak apa-apa. Orang-orang akan mem-porting pekerjaan itu ke llama.cpp dan semua akan diuntungkan
  Pengalaman pengguna ds4 juga luar biasa. Sangat mudah mendapatkan model yang tervalidasi dan kuantisasi yang bagus
  llama.cpp punya terlalu banyak knob, jadi rasanya lebih seperti meretas di tanah liar
- Tampaknya premisnya adalah “kode itu murah, kolaborasi, misalnya upstreaming, itu mahal”
  Apakah itu benar, kita akan lihat beberapa tahun lagi
- Seperti yang sudah beberapa kali dikatakan penulisnya, para maintainer llama.cpp tidak ingin banjir kode buatan AI yang belum ditinjau manusia masuk luas ke proyek itu
  Kalau ada yang ingin meng-upstream dukungan ke proyek tersebut, silakan saja, dan kodenya berlisensi MIT
- Pada titik tertentu, tingkat abstraksi dan generalisasi yang dibutuhkan proyek besar dan fleksibel seperti llama.cpp atau Linux membuat jumlah file melonjak sangat banyak
  Proyek yang lebih baru dan lebih kecil bisa bergerak lebih cepat
DeepSeekV4 Pro adalah model yang benar-benar mumpuni, dan sangat bagus terutama di kisaran harga yang ditawarkan
Saya sedang mengutak-atik engine 2.5D berbasis raylib di C dan memakai DeepSeek sebagai asisten
Di OpenaCode, catatan proses berpikirnya terlihat transparan, dan melihat alur pikir itu sangat mengagumkan
Memang sangat panjang untuk dibaca, tetapi tidak ada bagian yang terasa tidak berguna atau kosong makna
DeepSeek selalu menandai asumsi yang tidak saya sadari atau yang ternyata salah dalam alur pikirnya, lalu pada output akhir tetap menyesuaikan dengan flawed request saya
Lalu saya jadi bisa memberi instruksi lagi seperti, “tunggu, kamu juga berpikir begitu kan, itu yang benar dan saya yang keliru, jadi mari pertimbangkan sisi itu juga”
Akan bagus kalau ini bisa dijalankan bukan hanya di komputer saya, tapi juga di proyek klien atau GPU cloud
Ide utamanya—memakai model kuat secara efisien tanpa cluster—masih berlaku juga untuk banyak kasus bisnis
Saya harap pendekatan seperti ini juga bekerja dalam mode batch
Saat ini di H200, untuk tool calling bergaya agen pada agen suara cerdas, Qwen 3.6 27B 4-bit dengan MTP terasa seperti salah satu yang terbaik
Saya penasaran apakah DS4 Flash, jika berupa 80B 2-bit, 13B aktif, dengan arsitektur MTP, bisa lebih cepat dan lebih pintar sekaligus mengizinkan lebih banyak sequence bersamaan
Kuantisasi 2-bit khusus ini tampaknya cukup signifikan
Melihat performa dan kecepatan pada model lokal—entah mau disebut “kecerdasan” atau apa pun—naik begitu cepat, saya penasaran seperti apa laju pertumbuhan dan batas atas di area ini
Apakah dalam beberapa tahun, tingkat kecerdasan dan performa seperti ini bisa dicapai misalnya di RAM 16GB?
Bisakah kita mendefinisikan semacam hukum Moore baru di sini?
- Memasukkan model seperti ini ke 16GB, lengkap dengan “aroma model besar”, jujur saja saat ini tidak mungkin atau tidak realistis
  Diperlukan inovasi arsitektur, inovasi hardware, atau inovasi teknik kuantisasi tertentu
  Masalahnya, semua parameter tetap harus berada di memori, termasuk yang tidak diaktifkan
  Bahkan pada mixture-of-experts pun, menukar parameter keluar-masuk RAM terlalu lambat
- Orang-orang yang bekerja di garis depan area ini tampaknya melihat bahwa kita membutuhkan model paralel yang memecahkan masalah berbeda
  Gagak bisa menunjukkan tingkat kecerdasan tertentu dengan otak yang sangat kecil dibanding manusia, dan ada tumpang tindih dalam kemampuan pemecahan masalah antara manusia paling tidak cerdas dan gagak paling cerdas
  Jadi pertanyaannya adalah apa itu
  Yann LeCun tampaknya melihatnya sebagai sesuatu yang sekarang kita sebut world model
  World model tidak memprediksi data terstruktur seperti bahasa, melainkan memprediksi tindakan
  Jika kita bisa memprediksi bagaimana suatu dunia bekerja, secara teori kita bisa menalar sebab dan akibat
  Jika penalaran sebab-akibat digabungkan dengan bahasa, mungkin akan muncul sesuatu yang mendekati kecerdasan nyata
  Arah perkembangannya tampaknya ke sana
  Begitu prototipe sistem seperti itu muncul, akan ada banyak pertanyaan tentang seberapa banyak data yang benar-benar dibutuhkan
  Kita sudah melihat bahwa bahkan dengan kuantisasi 1-bit, LLM yang diperkecil masih bisa menghasilkan model dengan pemahaman bahasa yang cukup kuat
  Saya tidak menganggap tidak masuk akal bahwa dalam beberapa tahun ke depan kita akan melihat sistem AI yang sangat cerdas dengan kebutuhan memori yang relatif rendah

Beberapa catatan tentang DS4

Penyebaran cepat DS4 dan latar belakangnya

Arah ke depan

Bacaan terkait

1 komentar

Pendapat Hacker News