1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • DwarfStar 4 menyebar lebih cepat dari perkiraan, dan menunjukkan adanya permintaan untuk pengalaman AI lokal yang berpusat pada satu model
  • Penyebaran cepat ini didorong oleh DeepSeek v4 Flash dan kuantisasi asimetris 2/8-bit, sehingga dapat dijalankan dengan RAM 96GB atau 128GB
  • DS4 bukan proyek yang terikat pada model tertentu, melainkan ingin menempatkan model open-weight terbaru yang cepat sebagai pusatnya pada perangkat GPU in a box
  • Untuk inferensi lokal, pendekatan memanggil model spesialis seperti ds4-coding, ds4-legal, dan ds4-medical sesuai pertanyaan tampak masuk akal
  • Fokus berikutnya adalah benchmark kualitas, agen coding, CI berbasis perangkat keras rumahan, perluasan porting, serta inferensi terdistribusi serial dan paralel

Penyebaran cepat DS4 dan latar belakangnya

  • DwarfStar 4 mendapatkan popularitas lebih cepat dari perkiraan, dan menunjukkan permintaan akan pengalaman AI lokal yang berfokus pada integrasi satu model
  • Penyebaran cepat ini dipicu oleh kemunculan model semi-frontier seperti DeepSeek v4 Flash, performa dan kecepatan yang cukup besar hingga mengubah lanskap inferensi lokal, serta kombinasi kuantisasi asimetris 2/8-bit yang kuat
  • Kombinasi ini memungkinkan model dijalankan hanya dengan RAM 96GB atau 128GB
  • Pengalaman dari gerakan AI lokal yang terakumulasi selama beberapa tahun terakhir memengaruhi kecepatan pengembangan DS4, dan tanpa bantuan GPT 5.5 kemungkinan akan sulit dibuat hanya dalam satu minggu
  • Minggu pertama terasa menyenangkan tetapi melelahkan, dengan rata-rata 14 jam kerja per hari, dan intensitasnya mirip dengan beberapa bulan awal Redis

Arah ke depan

  • DS4 bukan proyek yang dimulai dan berakhir dengan DeepSeek v4 Flash; seiring waktu, model intinya bisa berubah
  • Tujuannya adalah menempatkan model open-weight terbaru yang benar-benar berjalan cepat sebagai pusat DS4 pada perangkat “GPU in a box” seperti Mac berperforma tinggi atau DGX Spark
  • Kandidat berikutnya adalah DeepSeek v4 Flash yang akan dirilis sebagai checkpoint baru, dan versi untuk coding maupun varian pakar seperti hukum dan medis juga dimungkinkan
  • Dalam inferensi lokal, pendekatan memanggil model seperti ds4-coding, ds4-legal, ds4-medical sesuai pertanyaan tampak bermakna
  • Ini bisa dibilang pertama kalinya pekerjaan serius yang biasanya ditanyakan ke Claude atau GPT mulai dipercayakan ke model lokal
  • Pengalaman menggunakan LLM dengan lebih bebas melalui vector steering juga menjadi mungkin, dan DS4 memberikan pengalaman yang jauh lebih dekat ke model frontier online dibanding model lokal kecil
  • Setelah beberapa hari awal yang kacau, proyek ini berencana berfokus pada benchmark kualitas, agen coding, pengujian CI berbasis perangkat keras rumahan, lebih banyak porting, dan inferensi terdistribusi
  • Inferensi terdistribusi mencakup pendekatan serial dan paralel, dan tetap menjadi tugas penting ke depan
  • AI terlalu penting untuk dibiarkan hanya sebagai layanan yang disediakan

1 komentar

 
GN⁺ 5 jam lalu
Pendapat Hacker News
  • DwarfStar4 adalah runtime inferensi LLM kecil yang bisa menjalankan DeepSeek 4, dan dari tulisan blognya tampaknya saat ini membutuhkan 96GB VRAM
    Ini penjelasan untuk orang yang kurang konteks :-)

    • Itu bukan model penuh, melainkan versi Flash, dan kuantisasi juga kira-kira di level Q2~Q3, jadi meski mengesankan, itu cukup berbeda dari model penuh
    • Ada bagian yang menyebut butuh 96GB VRAM; saya penasaran apakah ada yang sudah mencoba menjalankannya di Mac dengan RAM lebih kecil
      Sepertinya tetap bisa jalan, hanya mungkin sedikit lebih lambat karena lapisan model diambil dari penyimpanan
    • Saya penasaran apa bedanya DwarfStar4 dengan llama.cpp
  • Saya sangat penasaran di titik mana kecerdasan untuk coding akan mencapai level “cukup”
    Pada titik tertentu, model yang kurang pintar bisa dibiarkan mengerjakan masalah lebih lama untuk mencapai hasil yang sama, dan kalau saya tidak ikut campur, pada akhirnya hasilnya setara
    DeepSeek V4 Pro terasa hampir sampai di titik itu, dan Flash mungkin juga
    Kalau titik itu tercapai, saya penasaran seberapa banyak model bisnis Anthropic saat ini akan runtuh
    Sampai sekarang, membayar untuk model paling pintar jelas selalu sepadan, tapi kini tampak jelas bahwa ruang pertumbuhan untuk konsep itu terbatas
    Pertanyaannya adalah seberapa panjang sisa landasannya, dan saya juga penasaran apakah Anthropic buru-buru merambah area enterprise dan produktivitas karena mereka sudah melihat arah tren ini

    • Model yang lebih pintar kadang memang bisa langsung melakukan hal yang tidak bisa dilakukan model kecil
      Rasanya ini bukan sekadar soal menunggu lebih lama
    • Pada akhirnya ini akan selalu kembali ke soal biaya
      Ini soal keseimbangan antara waktu developer, biaya developer, biaya AI, dan produktivitas developer
      Melihat 4.6, untuk perusahaan biasa sepertinya sudah mendekati batas biaya yang bisa ditoleransi, jadi variabel lain perlu berubah
    • Agen coding open source Kilo menguji dan membandingkan Deepseek v4 Pro dan Flash dengan Opus 4.7 dan Kimi K2[1]
      Hasilnya cukup baik, tetapi skornya jauh di bawah Opus, dan bahkan dengan harga promosi rilis Deepseek saat ini, biayanya hampir sama
      Struktur biaya ini menarik; saya melihat hal serupa pada Sonnet dan Opus, dan saat melakukan benchmark sendiri juga ada model yang harga per token-nya tampak bagus, tetapi memakai token terlalu banyak sehingga total biayanya jadi sama dengan model yang “lebih mahal”
      [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
    • Untuk programmer hobi, level cukup bagus mungkin akan tercapai cukup cepat, tetapi perusahaan tetap tampaknya akan membayar untuk model yang lebih cepat dan lebih pintar
      Kenapa harus membuat programmer menunggu
  • Senang menemukan alat yang fokusnya sempit seperti ini
    Backend yang didukung terutama menargetkan Metal, dimulai dari MacBook dengan RAM 96GB
    NVIDIA CUDA memberi perhatian khusus pada DGX Spark, dan AMD ROCm hanya didukung di branch rocm
    Karena antirez sendiri tidak punya akses langsung ke hardwarenya, branch itu dipisahkan dari main dan komunitas yang me-rebase saat perlu
    Proyek ini tidak akan ada tanpa llama.cpp dan GGML, dan ada juga catatan untuk membaca bagian ucapan terima kasih
    Namun tampaknya offloading ke system RAM masih belum didukung[0]
    Jadi saya juga harus terus memantau issue llama.cpp[1]
    [0] https://github.com/antirez/ds4/issues/108
    [1] https://github.com/ggml-org/llama.cpp/issues/22319

    • Katanya AMD ROCm hanya didukung di branch rocm; saya penasaran apakah ada yang benar-benar sudah mencobanya
      Thread ini banyak membahas MacBook Pro, tetapi saya ingin mencobanya di AMD Halo Strix dengan 128GB unified memory
    • Seandainya saja saya masih bisa membeli Mac dengan RAM sebanyak itu
  • Saya sudah mencoba versi Q4 lewat jaringan lokal di Mac Studio, dan hasilnya bagus
    Saya memakainya bersama beberapa agen, dan pernah sampai lupa bahwa ini model lokal karena kerjanya terlalu bagus
    Tapi saya tetap ragu apakah benar-benar perlu agen lain lagi
    Saya menjalankannya dengan Pi, tetapi system prompt Claude Code terlalu berat jika melihat kecepatan prefill, meski hasilnya sangat bagus
    OpenCode juga pilihan yang bagus
    Saya penasaran apakah ada manfaat tambahan kalau membuat satu alat serupa lagi khusus untuk Deepseek 4

    • Dari sisi fungsi, tidak perlu ada agen lain lagi
      Tapi jika mengikuti ide DS4 sendiri, agen API dibuat melakukan hal-hal aneh seperti menerjemahkan sintaks DSML ke JSON, dan akibatnya muncul masalah normalisasi atau checkpointing cache KV
      Terlepas memang begitu atau tidak, tetap ada nilai dalam menyediakan alternatif yang lebih masuk akal
      Saya juga kurang paham kenapa di area ini tidak lebih banyak yang ditulis dalam C/Go/Rust untuk mendapatkan kontrol, kecepatan, dan pengurangan dependensi
      Di sisi TUI juga masih banyak yang bisa dibayangkan
      Kebanyakan proyek punya masalah hanya menyalin apa yang sudah ada; misalnya saya membuat hal seperti ini hanya dalam 20 menit: https://x.com/antirez/status/2055190821373116619
      Sekarang kode sudah murah, dan nilai ide justru makin besar
      Saya tidak yakin pola pikir seperti “apakah kita butuh XYZ lagi?” masih tepat hari ini
      Mungkin tetap bernilai hanya untuk mengeksplorasi ide baru
      Secara pribadi saya tidak suka memakai ekosistem JavaScript / Node untuk menulis kode, jadi saat mengeksplorasi TUI baru atau workflow agen, memakai alat yang lebih nyaman akan mengubah hasil dan proses iterasinya
    • DS4 adalah mesin inferensi, bukan execution harness
      Ia menyediakan server API inferensi, lalu coding harness dihubungkan ke sana
  • Saat ini saya belum bisa memakainya karena keterbatasan hardware, tapi saya suka idenya. Saya cuma punya M2 Max dengan 96GB
    Saya paham kalau bagi pengguna umum atau komputer massal, ini mungkin terlihat tidak bisa dipakai atau malah lebih buruk
    Ini mengingatkan saya pada masa ketika komputer rumahan dulu dianggap mainan sebelum menjadi komputer pribadi
    Kombinasi yang masih lumayan bisa dipakai di hardware saya saat ini adalah pi agent + llama.cpp + model nemotron cascade-2
    Bisa sampai konteks 1M, dan karena arsitekturnya hibrida, ia tidak runtuh seperti 1/N² pada kedalaman konteks 10K·50K·100K yang dipakai agen kode
    Beberapa hari lalu di pesawat, tanpa internet pun saya bisa menjalankan pi agent dengan serving llama.cpp, dan meski hanya sekitar 40~30 token/detik, tetap cukup bisa dipakai sampai terasa lucu
    Biasanya saya tahu kecepatan API sekitar dua kali lipatnya, sekitar 60~80 token/detik
    Saat inferensi, sensor menunjukkan konsumsi 60W, dan baterai mungkin sulit bertahan lebih dari 3 jam
    Ukuran modelnya cuma 30B, jadi masih ada banyak ruang untuk cache KV dan program lain, dan tetap cukup baik bahkan dengan kuantisasi 8-bit yang longgar
    MoE A3B dengan hanya 3B parameter aktif sekaligus tampaknya adalah batas maksimum yang masih bisa ditangani M2 Max yang mulai menua

    • Saya tidak tahu apakah perilakunya berbeda di macOS, tetapi dengan kombinasi CUDA dan DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf, itu muat dalam 96GB VRAM termasuk konteks
      Jadi secara teori seharusnya memungkinkan, kecuali macOS secara default memakai beberapa GB RAM/VRAM untuk OS atau display
    • Sepertinya itu juga akan berjalan di komputer tersebut
      Ada beberapa laporan positif
    • 96GB seharusnya cukup untuk berjalan, terutama dengan konteks terbatas
      Hanya saja M2 Max memang agak lambat
  • Mengejutkan karena rasanya sangat dekat dengan Claude
    Tentu jauh lebih lambat, tetapi saya tidak yakin ia jauh lebih bodoh
    Menariknya, kuantisasi imatrix tampaknya lebih baik daripada kuantisasi apa pun yang dipakai backend inferensi zdr milik OpenRouter
    Kemarin model itu sadar sendiri bahwa proses servernya adalah dirinya sendiri tanpa perlu saya beri tahu, dan itu pertama kalinya saya melihat hal seperti itu dari model lokal

    • Saya penasaran prompt apa yang Anda berikan
    • Ini jelas pengujian yang sifatnya anekdotal, tetapi DeepseekV4 Pro lebih baik daripada Sonnet untuk coding
      Jauh lebih lambat, tetapi dengan promosi saat ini terutama jadi beberapa kali lebih murah
  • Rasanya belum dijelaskan kenapa perlu membuat mesin inferensi baru untuk tiap model
    Tinggal pakai llama.cpp saja, dan sudah banyak orang mengerjakan integrasi llama.cpp
    Ini berarti mencurahkan banyak usaha ke satu model, dan kemungkinan cepat usang kalau muncul model lain yang lebih baik
    Dalam beberapa diskusi, orang-orang sampai membuat PR untuk branch llama.cpp dan ds4 sekaligus, sehingga tenaga langka yang menginvestasikan waktu pengembangan untuk model ini jadi terpecah

    • Jauh lebih mudah bekerja pada codebase C yang fokus dan kita miliki sendiri dibanding codebase C++ matang yang rumit dan bukan milik kita
      Tapi tidak apa-apa. Orang-orang akan mem-porting pekerjaan itu ke llama.cpp dan semua akan diuntungkan
      Pengalaman pengguna ds4 juga luar biasa. Sangat mudah mendapatkan model yang tervalidasi dan kuantisasi yang bagus
      llama.cpp punya terlalu banyak knob, jadi rasanya lebih seperti meretas di tanah liar
    • Tampaknya premisnya adalah “kode itu murah, kolaborasi, misalnya upstreaming, itu mahal”
      Apakah itu benar, kita akan lihat beberapa tahun lagi
    • Seperti yang sudah beberapa kali dikatakan penulisnya, para maintainer llama.cpp tidak ingin banjir kode buatan AI yang belum ditinjau manusia masuk luas ke proyek itu
      Kalau ada yang ingin meng-upstream dukungan ke proyek tersebut, silakan saja, dan kodenya berlisensi MIT
    • Pada titik tertentu, tingkat abstraksi dan generalisasi yang dibutuhkan proyek besar dan fleksibel seperti llama.cpp atau Linux membuat jumlah file melonjak sangat banyak
      Proyek yang lebih baru dan lebih kecil bisa bergerak lebih cepat
  • DeepSeekV4 Pro adalah model yang benar-benar mumpuni, dan sangat bagus terutama di kisaran harga yang ditawarkan
    Saya sedang mengutak-atik engine 2.5D berbasis raylib di C dan memakai DeepSeek sebagai asisten
    Di OpenaCode, catatan proses berpikirnya terlihat transparan, dan melihat alur pikir itu sangat mengagumkan
    Memang sangat panjang untuk dibaca, tetapi tidak ada bagian yang terasa tidak berguna atau kosong makna
    DeepSeek selalu menandai asumsi yang tidak saya sadari atau yang ternyata salah dalam alur pikirnya, lalu pada output akhir tetap menyesuaikan dengan flawed request saya
    Lalu saya jadi bisa memberi instruksi lagi seperti, “tunggu, kamu juga berpikir begitu kan, itu yang benar dan saya yang keliru, jadi mari pertimbangkan sisi itu juga”

  • Akan bagus kalau ini bisa dijalankan bukan hanya di komputer saya, tapi juga di proyek klien atau GPU cloud
    Ide utamanya—memakai model kuat secara efisien tanpa cluster—masih berlaku juga untuk banyak kasus bisnis
    Saya harap pendekatan seperti ini juga bekerja dalam mode batch
    Saat ini di H200, untuk tool calling bergaya agen pada agen suara cerdas, Qwen 3.6 27B 4-bit dengan MTP terasa seperti salah satu yang terbaik
    Saya penasaran apakah DS4 Flash, jika berupa 80B 2-bit, 13B aktif, dengan arsitektur MTP, bisa lebih cepat dan lebih pintar sekaligus mengizinkan lebih banyak sequence bersamaan
    Kuantisasi 2-bit khusus ini tampaknya cukup signifikan

  • Melihat performa dan kecepatan pada model lokal—entah mau disebut “kecerdasan” atau apa pun—naik begitu cepat, saya penasaran seperti apa laju pertumbuhan dan batas atas di area ini
    Apakah dalam beberapa tahun, tingkat kecerdasan dan performa seperti ini bisa dicapai misalnya di RAM 16GB?
    Bisakah kita mendefinisikan semacam hukum Moore baru di sini?

    • Memasukkan model seperti ini ke 16GB, lengkap dengan “aroma model besar”, jujur saja saat ini tidak mungkin atau tidak realistis
      Diperlukan inovasi arsitektur, inovasi hardware, atau inovasi teknik kuantisasi tertentu
      Masalahnya, semua parameter tetap harus berada di memori, termasuk yang tidak diaktifkan
      Bahkan pada mixture-of-experts pun, menukar parameter keluar-masuk RAM terlalu lambat
    • Orang-orang yang bekerja di garis depan area ini tampaknya melihat bahwa kita membutuhkan model paralel yang memecahkan masalah berbeda
      Gagak bisa menunjukkan tingkat kecerdasan tertentu dengan otak yang sangat kecil dibanding manusia, dan ada tumpang tindih dalam kemampuan pemecahan masalah antara manusia paling tidak cerdas dan gagak paling cerdas
      Jadi pertanyaannya adalah apa itu
      Yann LeCun tampaknya melihatnya sebagai sesuatu yang sekarang kita sebut world model
      World model tidak memprediksi data terstruktur seperti bahasa, melainkan memprediksi tindakan
      Jika kita bisa memprediksi bagaimana suatu dunia bekerja, secara teori kita bisa menalar sebab dan akibat
      Jika penalaran sebab-akibat digabungkan dengan bahasa, mungkin akan muncul sesuatu yang mendekati kecerdasan nyata
      Arah perkembangannya tampaknya ke sana
      Begitu prototipe sistem seperti itu muncul, akan ada banyak pertanyaan tentang seberapa banyak data yang benar-benar dibutuhkan
      Kita sudah melihat bahwa bahkan dengan kuantisasi 1-bit, LLM yang diperkecil masih bisa menghasilkan model dengan pemahaman bahasa yang cukup kuat
      Saya tidak menganggap tidak masuk akal bahwa dalam beberapa tahun ke depan kita akan melihat sistem AI yang sangat cerdas dengan kebutuhan memori yang relatif rendah