- DwarfStar 4 menyebar lebih cepat dari perkiraan, dan menunjukkan adanya permintaan untuk pengalaman AI lokal yang berpusat pada satu model
- Penyebaran cepat ini didorong oleh DeepSeek v4 Flash dan kuantisasi asimetris 2/8-bit, sehingga dapat dijalankan dengan RAM 96GB atau 128GB
- DS4 bukan proyek yang terikat pada model tertentu, melainkan ingin menempatkan model open-weight terbaru yang cepat sebagai pusatnya pada perangkat GPU in a box
- Untuk inferensi lokal, pendekatan memanggil model spesialis seperti ds4-coding, ds4-legal, dan ds4-medical sesuai pertanyaan tampak masuk akal
- Fokus berikutnya adalah benchmark kualitas, agen coding, CI berbasis perangkat keras rumahan, perluasan porting, serta inferensi terdistribusi serial dan paralel
Penyebaran cepat DS4 dan latar belakangnya
- DwarfStar 4 mendapatkan popularitas lebih cepat dari perkiraan, dan menunjukkan permintaan akan pengalaman AI lokal yang berfokus pada integrasi satu model
- Penyebaran cepat ini dipicu oleh kemunculan model semi-frontier seperti DeepSeek v4 Flash, performa dan kecepatan yang cukup besar hingga mengubah lanskap inferensi lokal, serta kombinasi kuantisasi asimetris 2/8-bit yang kuat
- Kombinasi ini memungkinkan model dijalankan hanya dengan RAM 96GB atau 128GB
- Pengalaman dari gerakan AI lokal yang terakumulasi selama beberapa tahun terakhir memengaruhi kecepatan pengembangan DS4, dan tanpa bantuan GPT 5.5 kemungkinan akan sulit dibuat hanya dalam satu minggu
- Minggu pertama terasa menyenangkan tetapi melelahkan, dengan rata-rata 14 jam kerja per hari, dan intensitasnya mirip dengan beberapa bulan awal Redis
Arah ke depan
- DS4 bukan proyek yang dimulai dan berakhir dengan DeepSeek v4 Flash; seiring waktu, model intinya bisa berubah
- Tujuannya adalah menempatkan model open-weight terbaru yang benar-benar berjalan cepat sebagai pusat DS4 pada perangkat “GPU in a box” seperti Mac berperforma tinggi atau DGX Spark
- Kandidat berikutnya adalah DeepSeek v4 Flash yang akan dirilis sebagai checkpoint baru, dan versi untuk coding maupun varian pakar seperti hukum dan medis juga dimungkinkan
- Dalam inferensi lokal, pendekatan memanggil model seperti ds4-coding, ds4-legal, ds4-medical sesuai pertanyaan tampak bermakna
- Ini bisa dibilang pertama kalinya pekerjaan serius yang biasanya ditanyakan ke Claude atau GPT mulai dipercayakan ke model lokal
- Pengalaman menggunakan LLM dengan lebih bebas melalui vector steering juga menjadi mungkin, dan DS4 memberikan pengalaman yang jauh lebih dekat ke model frontier online dibanding model lokal kecil
- Setelah beberapa hari awal yang kacau, proyek ini berencana berfokus pada benchmark kualitas, agen coding, pengujian CI berbasis perangkat keras rumahan, lebih banyak porting, dan inferensi terdistribusi
- Inferensi terdistribusi mencakup pendekatan serial dan paralel, dan tetap menjadi tugas penting ke depan
- AI terlalu penting untuk dibiarkan hanya sebagai layanan yang disediakan
1 komentar
Pendapat Hacker News
DwarfStar4 adalah runtime inferensi LLM kecil yang bisa menjalankan DeepSeek 4, dan dari tulisan blognya tampaknya saat ini membutuhkan 96GB VRAM
Ini penjelasan untuk orang yang kurang konteks :-)
Sepertinya tetap bisa jalan, hanya mungkin sedikit lebih lambat karena lapisan model diambil dari penyimpanan
Saya sangat penasaran di titik mana kecerdasan untuk coding akan mencapai level “cukup”
Pada titik tertentu, model yang kurang pintar bisa dibiarkan mengerjakan masalah lebih lama untuk mencapai hasil yang sama, dan kalau saya tidak ikut campur, pada akhirnya hasilnya setara
DeepSeek V4 Pro terasa hampir sampai di titik itu, dan Flash mungkin juga
Kalau titik itu tercapai, saya penasaran seberapa banyak model bisnis Anthropic saat ini akan runtuh
Sampai sekarang, membayar untuk model paling pintar jelas selalu sepadan, tapi kini tampak jelas bahwa ruang pertumbuhan untuk konsep itu terbatas
Pertanyaannya adalah seberapa panjang sisa landasannya, dan saya juga penasaran apakah Anthropic buru-buru merambah area enterprise dan produktivitas karena mereka sudah melihat arah tren ini
Rasanya ini bukan sekadar soal menunggu lebih lama
Ini soal keseimbangan antara waktu developer, biaya developer, biaya AI, dan produktivitas developer
Melihat 4.6, untuk perusahaan biasa sepertinya sudah mendekati batas biaya yang bisa ditoleransi, jadi variabel lain perlu berubah
Hasilnya cukup baik, tetapi skornya jauh di bawah Opus, dan bahkan dengan harga promosi rilis Deepseek saat ini, biayanya hampir sama
Struktur biaya ini menarik; saya melihat hal serupa pada Sonnet dan Opus, dan saat melakukan benchmark sendiri juga ada model yang harga per token-nya tampak bagus, tetapi memakai token terlalu banyak sehingga total biayanya jadi sama dengan model yang “lebih mahal”
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
Kenapa harus membuat programmer menunggu
Senang menemukan alat yang fokusnya sempit seperti ini
Backend yang didukung terutama menargetkan Metal, dimulai dari MacBook dengan RAM 96GB
NVIDIA CUDA memberi perhatian khusus pada DGX Spark, dan AMD ROCm hanya didukung di branch
rocmKarena antirez sendiri tidak punya akses langsung ke hardwarenya, branch itu dipisahkan dari main dan komunitas yang me-rebase saat perlu
Proyek ini tidak akan ada tanpa llama.cpp dan GGML, dan ada juga catatan untuk membaca bagian ucapan terima kasih
Namun tampaknya offloading ke system RAM masih belum didukung[0]
Jadi saya juga harus terus memantau issue llama.cpp[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocm; saya penasaran apakah ada yang benar-benar sudah mencobanyaThread ini banyak membahas MacBook Pro, tetapi saya ingin mencobanya di AMD Halo Strix dengan 128GB unified memory
Saya sudah mencoba versi Q4 lewat jaringan lokal di Mac Studio, dan hasilnya bagus
Saya memakainya bersama beberapa agen, dan pernah sampai lupa bahwa ini model lokal karena kerjanya terlalu bagus
Tapi saya tetap ragu apakah benar-benar perlu agen lain lagi
Saya menjalankannya dengan Pi, tetapi system prompt Claude Code terlalu berat jika melihat kecepatan prefill, meski hasilnya sangat bagus
OpenCode juga pilihan yang bagus
Saya penasaran apakah ada manfaat tambahan kalau membuat satu alat serupa lagi khusus untuk Deepseek 4
Tapi jika mengikuti ide DS4 sendiri, agen API dibuat melakukan hal-hal aneh seperti menerjemahkan sintaks DSML ke JSON, dan akibatnya muncul masalah normalisasi atau checkpointing cache KV
Terlepas memang begitu atau tidak, tetap ada nilai dalam menyediakan alternatif yang lebih masuk akal
Saya juga kurang paham kenapa di area ini tidak lebih banyak yang ditulis dalam C/Go/Rust untuk mendapatkan kontrol, kecepatan, dan pengurangan dependensi
Di sisi TUI juga masih banyak yang bisa dibayangkan
Kebanyakan proyek punya masalah hanya menyalin apa yang sudah ada; misalnya saya membuat hal seperti ini hanya dalam 20 menit: https://x.com/antirez/status/2055190821373116619
Sekarang kode sudah murah, dan nilai ide justru makin besar
Saya tidak yakin pola pikir seperti “apakah kita butuh XYZ lagi?” masih tepat hari ini
Mungkin tetap bernilai hanya untuk mengeksplorasi ide baru
Secara pribadi saya tidak suka memakai ekosistem JavaScript / Node untuk menulis kode, jadi saat mengeksplorasi TUI baru atau workflow agen, memakai alat yang lebih nyaman akan mengubah hasil dan proses iterasinya
Ia menyediakan server API inferensi, lalu coding harness dihubungkan ke sana
Saat ini saya belum bisa memakainya karena keterbatasan hardware, tapi saya suka idenya. Saya cuma punya M2 Max dengan 96GB
Saya paham kalau bagi pengguna umum atau komputer massal, ini mungkin terlihat tidak bisa dipakai atau malah lebih buruk
Ini mengingatkan saya pada masa ketika komputer rumahan dulu dianggap mainan sebelum menjadi komputer pribadi
Kombinasi yang masih lumayan bisa dipakai di hardware saya saat ini adalah pi agent + llama.cpp + model nemotron cascade-2
Bisa sampai konteks 1M, dan karena arsitekturnya hibrida, ia tidak runtuh seperti 1/N² pada kedalaman konteks 10K·50K·100K yang dipakai agen kode
Beberapa hari lalu di pesawat, tanpa internet pun saya bisa menjalankan pi agent dengan serving llama.cpp, dan meski hanya sekitar 40~30 token/detik, tetap cukup bisa dipakai sampai terasa lucu
Biasanya saya tahu kecepatan API sekitar dua kali lipatnya, sekitar 60~80 token/detik
Saat inferensi, sensor menunjukkan konsumsi 60W, dan baterai mungkin sulit bertahan lebih dari 3 jam
Ukuran modelnya cuma 30B, jadi masih ada banyak ruang untuk cache KV dan program lain, dan tetap cukup baik bahkan dengan kuantisasi 8-bit yang longgar
MoE A3B dengan hanya 3B parameter aktif sekaligus tampaknya adalah batas maksimum yang masih bisa ditangani M2 Max yang mulai menua
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf, itu muat dalam 96GB VRAM termasuk konteksJadi secara teori seharusnya memungkinkan, kecuali macOS secara default memakai beberapa GB RAM/VRAM untuk OS atau display
Ada beberapa laporan positif
Hanya saja M2 Max memang agak lambat
Mengejutkan karena rasanya sangat dekat dengan Claude
Tentu jauh lebih lambat, tetapi saya tidak yakin ia jauh lebih bodoh
Menariknya, kuantisasi imatrix tampaknya lebih baik daripada kuantisasi apa pun yang dipakai backend inferensi zdr milik OpenRouter
Kemarin model itu sadar sendiri bahwa proses servernya adalah dirinya sendiri tanpa perlu saya beri tahu, dan itu pertama kalinya saya melihat hal seperti itu dari model lokal
Jauh lebih lambat, tetapi dengan promosi saat ini terutama jadi beberapa kali lebih murah
Rasanya belum dijelaskan kenapa perlu membuat mesin inferensi baru untuk tiap model
Tinggal pakai llama.cpp saja, dan sudah banyak orang mengerjakan integrasi llama.cpp
Ini berarti mencurahkan banyak usaha ke satu model, dan kemungkinan cepat usang kalau muncul model lain yang lebih baik
Dalam beberapa diskusi, orang-orang sampai membuat PR untuk branch llama.cpp dan ds4 sekaligus, sehingga tenaga langka yang menginvestasikan waktu pengembangan untuk model ini jadi terpecah
Tapi tidak apa-apa. Orang-orang akan mem-porting pekerjaan itu ke llama.cpp dan semua akan diuntungkan
Pengalaman pengguna ds4 juga luar biasa. Sangat mudah mendapatkan model yang tervalidasi dan kuantisasi yang bagus
llama.cpp punya terlalu banyak knob, jadi rasanya lebih seperti meretas di tanah liar
Apakah itu benar, kita akan lihat beberapa tahun lagi
Kalau ada yang ingin meng-upstream dukungan ke proyek tersebut, silakan saja, dan kodenya berlisensi MIT
Proyek yang lebih baru dan lebih kecil bisa bergerak lebih cepat
DeepSeekV4 Pro adalah model yang benar-benar mumpuni, dan sangat bagus terutama di kisaran harga yang ditawarkan
Saya sedang mengutak-atik engine 2.5D berbasis raylib di C dan memakai DeepSeek sebagai asisten
Di OpenaCode, catatan proses berpikirnya terlihat transparan, dan melihat alur pikir itu sangat mengagumkan
Memang sangat panjang untuk dibaca, tetapi tidak ada bagian yang terasa tidak berguna atau kosong makna
DeepSeek selalu menandai asumsi yang tidak saya sadari atau yang ternyata salah dalam alur pikirnya, lalu pada output akhir tetap menyesuaikan dengan flawed request saya
Lalu saya jadi bisa memberi instruksi lagi seperti, “tunggu, kamu juga berpikir begitu kan, itu yang benar dan saya yang keliru, jadi mari pertimbangkan sisi itu juga”
Akan bagus kalau ini bisa dijalankan bukan hanya di komputer saya, tapi juga di proyek klien atau GPU cloud
Ide utamanya—memakai model kuat secara efisien tanpa cluster—masih berlaku juga untuk banyak kasus bisnis
Saya harap pendekatan seperti ini juga bekerja dalam mode batch
Saat ini di H200, untuk tool calling bergaya agen pada agen suara cerdas, Qwen 3.6 27B 4-bit dengan MTP terasa seperti salah satu yang terbaik
Saya penasaran apakah DS4 Flash, jika berupa 80B 2-bit, 13B aktif, dengan arsitektur MTP, bisa lebih cepat dan lebih pintar sekaligus mengizinkan lebih banyak sequence bersamaan
Kuantisasi 2-bit khusus ini tampaknya cukup signifikan
Melihat performa dan kecepatan pada model lokal—entah mau disebut “kecerdasan” atau apa pun—naik begitu cepat, saya penasaran seperti apa laju pertumbuhan dan batas atas di area ini
Apakah dalam beberapa tahun, tingkat kecerdasan dan performa seperti ini bisa dicapai misalnya di RAM 16GB?
Bisakah kita mendefinisikan semacam hukum Moore baru di sini?
Diperlukan inovasi arsitektur, inovasi hardware, atau inovasi teknik kuantisasi tertentu
Masalahnya, semua parameter tetap harus berada di memori, termasuk yang tidak diaktifkan
Bahkan pada mixture-of-experts pun, menukar parameter keluar-masuk RAM terlalu lambat
Gagak bisa menunjukkan tingkat kecerdasan tertentu dengan otak yang sangat kecil dibanding manusia, dan ada tumpang tindih dalam kemampuan pemecahan masalah antara manusia paling tidak cerdas dan gagak paling cerdas
Jadi pertanyaannya adalah apa itu
Yann LeCun tampaknya melihatnya sebagai sesuatu yang sekarang kita sebut world model
World model tidak memprediksi data terstruktur seperti bahasa, melainkan memprediksi tindakan
Jika kita bisa memprediksi bagaimana suatu dunia bekerja, secara teori kita bisa menalar sebab dan akibat
Jika penalaran sebab-akibat digabungkan dengan bahasa, mungkin akan muncul sesuatu yang mendekati kecerdasan nyata
Arah perkembangannya tampaknya ke sana
Begitu prototipe sistem seperti itu muncul, akan ada banyak pertanyaan tentang seberapa banyak data yang benar-benar dibutuhkan
Kita sudah melihat bahwa bahkan dengan kuantisasi 1-bit, LLM yang diperkecil masih bisa menghasilkan model dengan pemahaman bahasa yang cukup kuat
Saya tidak menganggap tidak masuk akal bahwa dalam beberapa tahun ke depan kita akan melihat sistem AI yang sangat cerdas dengan kebutuhan memori yang relatif rendah