4 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Bahkan di lingkungan M2 Mac keluaran 2022, performa LLM lokal sudah cukup baik hingga praktis dipakai untuk pertanyaan pengembangan, pekerjaan kode, dan pengecekan dokumen
  • Model lokal awalnya lambat, sulit digunakan, dan akurasinya rendah untuk tugas pemrograman, tetapi sejak GPT-OSS frekuensi memeriksa ulang ke model API berkurang
  • Dengan rilis terbaru lini Gemma 4, loop coding agen lokal berjalan dengan sekitar 75% akurasi dan kecepatan dibanding model frontier
  • Kombinasi Pi dan LM Studio menjalankan workflow agen melalui endpoint inferensi lokal, artefak model, dan konfigurasi isolasi Docker
  • Model lokal masih memiliki keterbatasan seperti latensi inferensi, context window kecil, dan batasan hardware, tetapi kita bisa langsung mengamati dan mengubah pemrosesan token, system prompt, kuantisasi, dan harness

Posisi model lokal saat ini

  • Model lokal awal pada sebagian besar tugas pemrograman terasa lambat, sulit digunakan, dan tidak akurat
  • Penilaian bahwa model lokal tertinggal jauh pada umumnya benar untuk penggunaan pribadi hingga sebelum rilis GPT-OSS
  • Standar pribadi untuk “model yang cukup bagus” adalah apakah masih perlu memverifikasi ulang ke model API, dan GPT-OSS adalah model pertama yang sangat mengurangi frekuensi pengecekan itu
  • Hingga belakangan ini, model lokal terutama dipakai seperti Google yang cepat dan dipersonalisasi untuk pertanyaan pengembangan yang tidak memerlukan informasi terbaru
  • Setelah rilis terbaru lini Gemma 4, loop coding agen di lokal berjalan dengan sekitar 75% akurasi dan kecepatan dibanding model frontier {p:75}

Model dan lingkungan eksekusi yang digunakan

Contoh pekerjaan agen lokal di dunia nyata

  • Sebuah notebook di-refactor menjadi repositori Python script dengan 5~6 modul
  • Modul tersebut di-lint agar menggunakan generic type hint sesuai standar PEP 585
  • Pengaturan lokal juga dipakai untuk menyunting tulisan blog, menulis unit test, dan menyiapkan konfigurasi awal repositori model two-tower untuk rekomendasi
  • Repositori model two-tower yang dibuat agen dari keadaan kosong memang masih dasar, tetapi sudah melampaui hal yang tahun lalu terasa mungkin
  • Semua workflow agen dijalankan di dalam container Docker dengan hak akses eksekusi yang dibatasi

Penggunaan sumber daya dan model kecil terbaru

  • Tugas yang dijalankan lebih mirip Google yang dipersonalisasi atau pencarian dokumentasi daripada pekerjaan yang benar-benar terobosan
  • Saat bekerja, penggunaan GPU dan RAM membesar dan K-V cache meningkat hingga 64GB RAM
  • Bahkan pekerjaan sederhana seperti ini tidak mungkin dilakukan dengan model lokal hanya 6 bulan lalu
  • Gemma-4-12b-qat sudah mengesankan dari sisi rasio ukuran terhadap performa sejak segera setelah rilis
  • Arsitektur model memunculkan pertanyaan tentang kompromi arsitektural apa yang diperlukan saat ada batasan performa dan biaya

Konfigurasi menjalankan model agen lokal

  • Untuk menjalankan alur agen lokal, dibutuhkan mesin inferensi model lokal, harness agen, dan artefak model lokal
  • Harness harus dikonfigurasi agar mengarah ke endpoint inferensi lokal, dan artefak model yang diunduh harus disajikan melalui mesin inferensi
  • Konfigurasi lokal saat ini menggunakan Pi sebagai harness agen dan LM Studio sebagai server inferensi
  • Pengaturan ini mengikuti panduan menyiapkan coding agen Gemma 4 dengan Pi dan LM Studio dengan beberapa perubahan
    • Alih-alih Gemma 26B A4B seperti di tulisan tersebut, digunakan gemma-4-12b-qat yang lebih baru, lebih kecil, dan lebih cepat, dengan kehilangan akurasi yang tidak besar
    • Demi keamanan, semua sesi Pi dijalankan di container Docker dan hanya diberi izin bash sehingga eksekusi kode Python dan penjelajahan web diblokir
    • Untuk image terpisah bagi pekerjaan riset, ada rencana untuk mengizinkan curl
    • Karena dijalankan di dalam Docker, models.json milik Pi diubah agar Pi dapat berkomunikasi dengan model

Metode isolasi berbasis Docker

  • Pada konfigurasi Pi, baseUrl diatur ke http://host.docker.internal:1234/v1 dan API diatur sebagai openai-completions
  • Konfigurasi Docker Compose me-mount models.json, direktori kerja, konfigurasi Pi, dan direktori sesi ke dalam container
  • Script eksekusi menghubungkan direktori kerja saat ini ke workspace container, dan bila perlu menambahkan file Compose sandbox yang lebih aman
  • Pi berjalan di repositori yang sedang dikerjakan dan menyalakan Docker, sehingga tidak bisa langsung menghapus file atau direktori di disk fisik
  • Konfigurasi model json kustom dapat diteruskan ke dalam container, dan ini bekerja cukup baik di lingkungan eksperimen

Keterbatasan yang masih tersisa

  • Model lokal masih bisa lambat saat inferensi, context window-nya kecil, dan context yang bisa dipakai dibatasi oleh hardware yang tersedia
  • Ekosistemnya sudah jauh lebih mudah berkat alat seperti LM Studio dan tombol Use This Model dari Hugging Face
  • Rilis awal kadang mengalami masalah ketidakcocokan prompt template, tetapi masalah seperti ini biasanya ditambal sangat cepat
  • Masih sulit untuk yakin bahwa ini sudah siap langsung dipakai dalam pengembangan software produksi

Kelebihan model lokal dan ruang eksperimen

  • Pada model lokal, hampir semua hal bisa diinspeksi, dan proses inferensi token bisa dilihat secara real time
  • Aliran token input dan output bisa diperiksa langsung
  • Kita bisa mengubah context window lokal dan melihat bagaimana performanya membaik atau memburuk
  • Kita bisa menggali bagaimana token diproses di GPU, serta mengubah system prompt dan pengaturan kuantisasi
  • Model bisa diadu satu sama lain, atau pengaturan di sisi harness bisa diubah lalu diamati, sehingga kemungkinan eksperimen terus meluas

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Tidak yakin ini sudah bagus. Saya sering memakai model lokal, tetapi menjalankannya secara lokal masih cukup menyakitkan
    Model dense seperti Qwen 27B dan Gemma 31B memang cukup pintar tetapi lambat, sedangkan model campuran pakar (MoE) seperti Gemma 26B, Qwen 35B, dan North Mini Code 30B cepat tetapi sering salah
    Agar benar-benar berjalan baik, butuh banyak memori, dan kalau dikuantisasi kemampuan pemanggilan tool jadi melemah. Kebanyakan orang menjalankannya dengan kuantisasi 4-bit lalu bertanya kenapa hasilnya kurang bagus, padahal itu pada dasarnya seperti melobotomi modelnya. Saya merekomendasikan kuantisasi Unsloth, dan menyarankan 6-bit untuk MoE, 5-bit untuk model dense
    Agar prefill cepat, butuh performa komputasi; agar decode cepat, butuh bandwidth; dan agar semuanya muat, juga butuh banyak memori. Selain itu, laptop akan berubah menjadi mesin yang panas dan berisik sehingga tidak nyaman dipakai bekerja
    Jadi apakah ini bagus? Tidak juga. Tapi memang bisa jalan
    Tambahan, saya percaya model terbuka adalah masa depan dan saya juga terus berkontribusi ke ekosistemnya. Akan bagus jika orang-orang bisa mencoba model seperti ini dan memakai pi untuk belajar cara kerjanya, tetapi jangan berharap hanya dengan mengunduh model semuanya langsung bagus. Untuk menggantikan “agen coding” yang diinginkan kebanyakan orang, masih perlu banyak tuning dan pengaturan

    • Pengalaman saya juga hampir sama. Satu-dua bulan lalu saya mencoba model-model yang direkomendasikan lewat ollama di desktop yang relatif baru dan cukup tinggi spesifikasinya (Radeon 6900 XT 16GB VRAM, Ryzen 9 7900X 12-core, RAM sistem 64GB)
      Model yang tidak khusus untuk coding sering mentok karena tidak benar-benar melakukan pemanggilan tool, hanya mengatakan “saya akan melakukan tindakan ini”, dan ketika saya tanya apa yang harus diatur untuk mengubah perilaku itu, jawabannya juga tidak membantu. Qwen bersikeras bahwa ia tidak berjalan di ollama, melainkan di cloud Alibaba, dan tidak punya izin mengakses sistem lokal
      Bahkan model untuk coding pun hanya berpikir sedikit lebih cepat daripada kecepatan saya mengetik, dan dalam kasus yang bisa menampilkan proses berpikir pun kemampuannya terbatas
      Pengalaman “gratis” terbaik yang saya temukan sejauh ini adalah OpenCode + Big Pickle. Tidak terlalu pintar sehingga hasil pertama sering salah, tetapi tier gratisnya cukup longgar sehingga walau dipakai beberapa jam cukup sering selama sekitar sebulan, saya hanya mentok batas kira-kira dua kali. Kalau targetnya benar-benar eksekusi lokal, ini memang tidak cocok, tetapi jika targetnya adalah “pengalaman terbaik tanpa biaya langganan atau token”, sejauh ini inilah pilihan yang paling tidak buruk
    • Menurut saya, untuk menjalankan model lokal dengan “baik” masih tetap perlu investasi hardware yang mahal. Untuk menjalankan model-model seperti ini dengan KV cache yang memadai, Anda akan menginginkan sekitar 96GB VRAM pada arsitektur Blackwell terbaru
      Mencoba menjalankannya di Mac dengan unified memory, prosesor AMD AI Max, atau perangkat mirip DGX Spark itu nyaris sama saja dengan mencari susah sendiri. Prefill menghancurkan performa
      Dengan GPU yang tepat, hasilnya memang jauh lebih baik, tetapi tetap belum menyamai Sonnet atau DeepSeek 4 Flash, apalagi Opus / DeepSeek Pro atau Mythos/Fable/GPT-5.5
      Jika anggaran, daya, dan pendinginan Anda cukup, Anda bisa menjalankan pipeline data yang lumayan bagus, tetapi untuk kode, dalam banyak kasus masih lebih masuk akal membayar penyedia API
    • Mungkin memang sebaiknya model seperti ini tidak dijalankan di laptop yang sangat dibatasi panas, dan jangan juga berharap kualitas yang mendekati state-of-the-art dengan inferensi secepat platform cloud besar
      Meski begitu, tetap layak dicoba jika tujuannya mengurangi ketergantungan besar pada layanan terpusat
    • Gemma 4 sangat bagus terutama untuk tugas pipeline/otomasi
      Dari pengalaman saya, untuk kepatuhan pada aturan atau pekerjaan bergaya otomasi, ia mengungguli model-model Qwen, bahkan yang 100B+, dan interpretasi gambarnya juga sangat bagus, bahkan di benchmark skornya lebih tinggi daripada Opus
      Qwen cenderung mengabaikan instruksi, dan jika format generasi token tidak dibatasi secara eksplisit, ia terus-menerus menghasilkan format yang salah
      Namun di DGX Spark, Gemma 31B Q4 + MTP hanya sekitar 20 token/detik, dan Gemma 26B A4B sekitar 60 token/detik, jadi tetap cukup lambat. Di kartu Nvidia kelas atas, kemungkinan akan berjalan jauh lebih cepat dan juga muat di memori
      Untuk orang yang baru mulai dengan model lokal, saya sarankan fokus pada bandwidth memori daripada RAM. Sekarang model di bawah 100B pun sudah cukup dan sangat berguna untuk otomasi
      Saya setuju bahwa untuk coding/kreasi, masih belum ada alasan kuat memakai model lokal. Tetapi untuk tugas seperti menelusuri daftar saham dan melakukan high-pass filtering berita, interpretasi log, atau interpretasi tangkapan layar, model lokal sudah lebih dari cukup
    • Saya penasaran apakah akan lebih baik menaruh mesin untuk menjalankan model di suatu tempat lalu dipakai bersama oleh beberapa orang
      Sepertinya bisa dibenarkan membeli M6 Mac Studio dengan RAM sekitar 256GB, lalu memberi beberapa orang akses ke satu model yang disepakati bersama. Laptop tampaknya terlalu panas dan terlalu lambat untuk tujuan ini
  • Setelah beberapa minggu memakai Qwen3.6-27B dengan puas, sekarang saya harus memakai Claude Sonnet 4.6 karena sedang jauh dari perangkat keras saya, dan rasanya seperti penurunan besar
    Saya tidak mengerti bagaimana ini bisa terjadi. Terlalu banyak opini kuat yang tidak diminta, terlalu banyak bicara, dan secara keseluruhan terasa lebih bodoh
    Tentu ini model yang jauh lebih besar jadi mungkin mengenkode lebih banyak pengetahuan, tetapi itu tidak membantu kalau tidak enak diajak berbicara. Lagi pula, berbicara dengannya juga benar-benar menghabiskan uang
    Saya penasaran kenapa saya begitu tidak suka. Mungkin karena ia melihat dirinya bukan sebagai alat melainkan hampir seperti entitas setara. Seolah-olah pendapatnya punya bobot
    Qwen juga kadang bisa bertingkah seperti intern yang terlalu bersemangat, tetapi kalau diberi tahu bahwa ia bodoh, ia menurunkan egonya. Dalam pengalaman saya, Claude tidak begitu
    Singkatnya, saya sepenuhnya setuju dengan judulnya

    • Saya belum pernah menghabiskan sepeser pun untuk inferensi cloud jadi tidak bisa membandingkan langsung, tetapi saya bisa bilang dengan pasti bahwa Qwen3.6-27B adalah model lokal yang sangat mumpuni untuk pekerjaan coding
      Selama satu setengah bulan terakhir saya memakainya hampir setiap hari di mesin M2 Ultra atau RTX 5090. Saya memakainya untuk pekerjaan kecil dan biasa-biasa saja di ggml-org [0], tidak ada yang spektakuler, tetapi jelas merupakan alat yang membantu maintainer
      Saya mungkin akan memakainya jauh lebih banyak kalau tidak menghabiskan banyak waktu untuk review PR. Saat ini saya memakai harness yang sangat ringan, kira-kira hanya agen pi yang sudah dibersihkan dari semuanya (pi -nc --offline) dan prompt sistem pendek [1] untuk menyesuaikannya dengan gaya saya
      Kecepatan generasinya sekitar 100~150 token/detik di RTX 5090, dan sekitar 40 token/detik di Mac. Saya jelas lebih suka menjalankannya di mesin RTX karena jauh lebih cepat, tetapi saya juga sering menjalankannya di Mac untuk menguji setup lokal dan mendapatkan pengalaman yang lebih luas
      [0] - https://github.com/search?q=%22Assisted-by%22+user%3Aggml-or...
      [1] - https://github.com/ggml-org/llama.cpp/blob/master/.pi/gg/SYS...
    • Saya memakai Qwen3.6-27B setiap hari, juga sebagai alat utama untuk pekerjaan, dan sudah hampir terus memakainya sejak tak lama setelah rilis. Menurut saya ini satu-satunya model lokal kecil yang benar-benar layak dipakai jika Anda bisa menjalankannya
      Mungkin ini kurang bagus untuk permintaan seperti Opus, misalnya “tolong tambahkan fitur besar X”, tetapi saya memang tidak menginginkan hal seperti itu dari model. Saya yang berpikir, modelnya yang mengetik. Qwen 3.6 27B sepenuhnya cukup untuk tujuan itu. Dalam pengalaman saya, 35A3B atau keluarga Gemma adalah penurunan yang cukup besar
      Selain itu, tidak ada kekhawatiran soal batas kecepatan, kuota, atau antrean jam sibuk. Anda selalu bisa melihat seluruh proses berpikirnya, tidak perlu khawatir data dikirim ke mana, dan tidak akan tiba-tiba diam-diam diturunkan performanya
      Saya menjalankannya dengan llama.cpp pada 2×3090 memakai setup Q6_K_XL + MTP, dengan prefill 500~1000 token/detik, output 60 token/detik, dan context window 220 ribu token. Setelah melewati 160 ribu token, modelnya mulai agak membodoh, dan saya tidak memakai kuantisasi KV
    • Bagian “terlalu banyak bicara” itu benar-benar menjengkelkan. Tolong diam saja dan jawab dengan ringkas
      Ini mungkin efek samping dari fitur berpikir, tetapi saya ingin rangkuman proses berpikir yang jauh lebih singkat. Bahkan dalam situasi ketika jawaban satu kalimat sudah cukup, model-model mutakhir malah menulis minimal 5 paragraf dan mencoba mengusulkan 3~5 arah baru
      Bahkan kalau sudah diminta untuk hanya satu langkah pada satu waktu, hanya satu opsi pada satu waktu, dan jangan proaktif mengusulkan arah selanjutnya, tetap saja sangat sulit mengendalikannya dengan prompt
      Tapi barusan saya juga melakukan persis hal yang saya keluhkan
    • Saya tidak akan menggeneralisasi hanya dari pengalaman di Sonnet. Model flagship yang setara dengan Opus dalam keluarga Claude jauh lebih baik
    • Lucu bahwa agen coding juga punya kepribadian. Ada juga kepribadian seperti “rekan kerja itu” yang sebenarnya cukup bagus dalam pekerjaannya, tetapi tetap ingin dihindari
  • Programmer terbiasa tidak membayar uang untuk alat. Laptop dasar saja (SSD, multicore, RAM 16GB) sudah sangat kuat untuk pengembangan C/C++/Rust, bahkan Python
    Lalu tiba-tiba itu tidak lagi cukup, dan kita kembali ke situasi memakai komputer orang lain serta menyewa alat setiap hari. Lebih buruk lagi, kita memakai model yang berbeda-beda tiap hari, dan pada hari tertentu mungkin bahkan tidak bisa menyewa alat yang bagus karena semacam kekuatan mirip mafia menekan produsennya
    Kebanyakan profesi lain memang harus berinvestasi cukup besar pada alat kerja. Kalau menginginkan alat yang bagus, Anda butuh memori GPU 64GB (misalnya 2×5090) dan sekitar 96GB RAM. Jika Anda membayar insinyur spesialis 200 ribu dolar, menghabiskan 50 ribu dolar untuk alat setiap dua tahun sekali juga tampak cukup masuk akal

  • Ini adalah tren yang perlu dikhawatirkan oleh perusahaan seperti Anthropic. Semakin mudah menjalankan model lokal, semakin rendah batas harga yang bisa mereka tetapkan
    Mungkin tidak akan sampai tak ada lagi orang yang mau membayar $$$$$ per bulan, tetapi banyak orang akan mengalikan biaya bulanan dengan 12 atau 24 lalu bertanya, “Apakah saya bisa membangun model lokal lebih murah dari ini dan balik modal dalam 1–2 tahun?”
    Jika sebagian besar pelanggan memilih membeli alih-alih menyewa, perusahaan dengan model bisnis yang berpusat pada sewa bisa tiba-tiba mengalami kekurangan pelanggan

    • Dalam 20 tahun terakhir di cloud computing, justru yang terjadi adalah kebalikannya. Perubahan seperti itu sepertinya tidak akan terjadi pada model AI
      Ini nyaris sudah tertanam dalam model bisnis ala Amerika. Semuanya di-outsource. Tidak ada yang ingin mengelola ruang server sendiri, dan meski harus membayar 2–3 kali lebih mahal, mereka tetap ingin meng-outsource kerepotan dan tanggung jawab itu
      AI pun akan sama. Entah premiumnya dibayar ke Anthropic atau ke AWS, hasilnya sama saja
      Saya bekerja di perusahaan yang relatif kecil, dan baru-baru ini kami mengalami gangguan terkait infrastruktur lokal. Meskipun total downtime internal selama 5 tahun terakhir jauh lebih sedikit daripada satu gangguan AWS besar yang baru-baru ini terjadi, CEO tetap menekan bahwa hosting infrastruktur sendiri sekarang dianggap tidak dapat diandalkan
      Semua orang ingin lepas dari pekerjaan remeh dan tanggung jawab
    • Saya sempat berpikir ini bisa mirip dengan perbedaan antara membayar Netflix dan mengunduh lewat torrent lalu menjalankan Plex
      Pengguna arus utama pada umumnya tampaknya lebih mungkin membayar untuk sesuatu yang sudah siap pakai dan langsung bisa digunakan. Orang yang lebih teknis atau lebih bertekad akan melakukannya sendiri, tetapi saya penasaran berapa rasio antara dua kelompok itu
    • Saya penasaran kapan perusahaan yang porsi coding-nya besar akan mulai menjalankan sendiri klaster AI on-premises
      Saya tidak tahu apakah ide menjual mesin 4GPU yang bisa ditaruh tim engineering di lemari suatu tempat lalu dipakai menjalankan model yang mereka mau sudah pernah ada
      Ini mungkin tidak menarik bagi semua orang, tetapi dalam situasi ketika ada masalah kepercayaan bahwa hyperscaler menyedot data orang untuk melatih model mereka, pasti ada pihak yang menghargai mesin dan model yang bisa dikendalikan secara transparan, dan bila perlu bisa didatangi langsung untuk mencabut colokannya
    • Model lokal seperti ini bisa mengerjakan sebagian hal yang dilakukan model non-state-of-the-art, tetapi nilainya tidak terlalu besar bagi saya
      Dengan hanya memakai Sonnet 4.6, saya hampir bisa bekerja seharian penuh dengan paket $20 per bulan. Dan Sonnet masih jauh lebih kuat daripada model yang bisa di-host sendiri di Mac M2
      Mungkin saya akan berpikir berbeda kalau semuanya beralih ke penagihan berdasarkan penggunaan token, tetapi dengan dasar langganan, menurut saya ini tidak masuk akal secara finansial
      Ini memang menyenangkan. Tetapi tidak layak secara ekonomis
    • Mereka sedang bergerak keras agar tidak ada yang bisa menjalankan apa pun secara lokal
      OpenAI membeli habis RAM di pasar spot sehingga harga RAM/VRAM naik 6 kali lipat, dan GPU serta komputer yang layak menjadi sulit dijangkau oleh kebanyakan orang
      Segelintir orang kaya mungkin bisa membeli Mac Studio 512GB atau satu RTX Pro 6000 seharga $13.000 lalu menjalankan model lokal yang cukup bagus, tetapi sebagian besar orang tetap harus memakai API
      Pada titik tertentu Nvidia bisa saja berkata, “Kami tidak menjual 6000 sebanyak itu, dan kami bisa mendapat untung 4 kali lipat dari GPU khusus data center, jadi batalkan saja.” Kalau itu terjadi, barang itu bisa menjadi mustahil didapat, dan orang perorangan mungkin tidak lagi bisa menjalankan model lokal yang cukup layak, meski tertinggal sekitar 1 tahun dari state of the art
  • Saya ingin melihat kode yang dihasilkan dengan itu. Saya ingin memakai model lokal dan juga punya perangkat kerasnya, tetapi ketika dicoba sebagai pengganti model state of the art seperti GPT 5.5 xhigh atau Opus, saat ini model lokal masih belum siap menggantikannya
    Karena kualitas dan berbagai hambatan, alur kerja jadi terlalu lambat, dan kadang bahkan merusak sintaks pemanggilan tool
    Meski begitu, untuk alur yang lebih kecil dan terdefinisi jelas atau edit seperti “ubah bagian ini persis seperti ini”, sepertinya sudah cukup. Saya menunggu sampai ini cukup matang untuk menggantikan state of the art saat ini, dan menurut saya itulah titik peralihannya
    Kalau bicara model lokal, DiffusionGemma dan model difusi secara umum tidak boleh diremehkan untuk penggunaan lokal. Biasanya masalah lokal adalah LLM tidak bisa memakai hardware secara efisien kecuali permintaan dibundel dalam batch dan dijalankan beberapa sekaligus, tetapi itu menuntut pendekatan yang berbeda sejak awal. Sebaliknya, model difusi jauh lebih cepat untuk satu prompt, dan selisihnya tidak kecil
    Kebetulan hari ini saya mem-port dukungan diffusiongemma-26B-A4B-it dari Transformers ke Candle, lalu menambahkan beberapa optimasi, sehingga saat inferensi performanya melesat di Candle sekitar 450 token/detik (sekitar 19 iterasi/detik). Di pustaka HF Transformers angkanya sekitar 180 token/detik (sekitar 11 iterasi/detik). Bahkan saat menjalankan LLM berukuran mirip di vLLM, saya rasa saya belum pernah menembus 250 token/detik untuk satu prompt, jadi ini cukup menarik untuk model lokal

    • Model difusi sulit dilatih dengan baik pada ukuran menengah hingga besar, dan kualitasnya lebih rendah daripada model generasi satu token per langkah biasa dengan ukuran yang sama
  • Dengan $2600, Anda bisa membeli dua GPU AMD 9700 dengan RAM 32GB per kartu dan daya sekitar 285W. Biaya maupun konsumsi dayanya sama-sama lebih rendah daripada 5090
    Jika memakai build VLLM dengan patch AITER, Anda bisa menjalankan Qwen3.6 27B FP8 pada jendela konteks penuh dengan sekitar 45–50 TPS dalam sesi coding nyata di Opencode atau PI
    Saya benar-benar berharap akan terus muncul lebih banyak model dense kelas 30B, tetapi bahkan hanya dengan Qwen3.6 saja sudah bisa menangani cukup banyak pekerjaan agen
    Hanya saja, stack ROCm tidak cocok untuk orang yang tidak mau menggali sendiri dan memasang patch secara manual

  • Saya penasaran kenapa standar tiap orang tentang agentic coding yang “bagus” bisa berbeda sejauh itu
    Di satu sisi, sungguh mengejutkan bahwa kita sudah sampai dari tingkat kecerdasan seperti “putar ‘Set a Timer’ di Apple Music” hingga tingkat yang mungkin bisa lolos Turing test, tetapi secara praktis model kecil masih jauh dari layak disebut “bagus” lebih dari sekadar demo teknis
    Bagi saya, model 7B hanyalah gema buram Wikipedia. Model Gemma 4-bit bahkan terlalu buruk untuk secara stabil menghasilkan JSON pemanggilan alat atau sekadar menyalin satu baris kode untuk menerapkan patch
    Qwen membutuhkan terlalu banyak instruksi detail dan pengawasan agar tidak masuk ke loop kehancuran atau kehilangan konteks, sampai-sampai instruksi yang harus saya berikan sering kali lebih panjang daripada kode akhir yang dihasilkannya
    Apakah ada prompt ajaib yang tidak saya ketahui? Atau orang lain memang jauh lebih sabar atau ekspektasinya jauh lebih rendah?

    • Saya juga punya pertanyaan yang mirip. Menurut saya, alasan ekspektasi berbeda adalah karena beban kerja juga berbeda
      Pada skrip kecil, glue code, dan perubahan CRUD sederhana, model kecil seperti Qwen3.6-27B bisa bekerja jauh lebih baik daripada di codebase yang lebih besar dan berantakan
    • Memang ada unsur standar yang rendah, dan itu makin rendah seiring waktu, tetapi menurut pengalaman saya, setup yang dijelaskan itu masih terlalu rendah
      Jika menjalankan Qwen/Gemma kelas 27/35B di FP8, hasilnya lebih baik daripada gemini-2.5 tetapi masih di bawah gemini-3.1. DS4-flash FP8 bisa dijalankan di dua DGX Spark, dan kondisinya terus membaik. DiffusionGemma baru-baru ini mencatat kecepatan generasi token 4x
      Singkatnya, model yang dipakai tampaknya terlalu kecil atau terlalu dikuantisasi
  • Saya suka menjalankan dua model secara lokal. Yaitu qwen3.6 27B 8-bit (dense) dan qwen3.6 35B 4-bit (mixture of experts)
    27B lebih pintar dan lebih bisa diandalkan, tetapi lambat. 35B lebih cepat dan tetap sangat pintar, tetapi berada di bawah 27B dan sedikit kurang stabil. Alasannya adalah arsitektur mixture of experts (MoE) yang hanya mengaktifkan sebagian parameter sehingga model jauh lebih cepat
    Saya menjalankan 27B di MacBook Pro M5 Max + 40 GPU core + RAM 128GB. Di monster ini, 27B dan 35B bisa dimuat bersamaan di memori dan masih ada sisa untuk pekerjaan lain. Tetapi karena ini laptop, tidak mungkin menjalankan LLM lokal terus-menerus. Terlalu panas dan berisik
    Yang lebih menarik adalah menjalankan model 35B di MacMini M4 RAM 64GB. Cepat dan bisa menangani banyak pekerjaan. Misalnya memindai, mengekstrak, dan mengklasifikasikan email, lalu terus memantau mailbox sambil bekerja. Saya juga memakainya sebagai asisten Hermes pribadi untuk pertanyaan seperti “Kapan peluncuran Starship berikutnya?”, “Siapa yang bermain di Piala Dunia hari ini? Sekalian kasih trivia”
    Rencana berikutnya adalah workstation RTX Pro 6000 Blackwell yang akan saya taruh di basement. Saya ingin menjalankan Qwen dengan sangat cepat, secara bersamaan dengan banyak thread/prompt/agent. Kalau anggaran memungkinkan, saya ingin konfigurasi 2×RTX Pro 6000 untuk menjalankan DeepSeek v4 flash dan memakainya untuk riset

    • Untuk “Hermes” itu, apakah Anda mengambil sesuatu seperti kunci API pencarian Brave?
    • Saya benar-benar ingin RTX 6000 Pro, tetapi bagaimana membenarkannya kalau harganya setara dengan 10 tahun Claude Max?
  • Untuk penggunaan harian, saya meng-host Qwen3.6:27b, tetapi saya benar-benar ingin meng-host deepseekv4 flash. Itu model yang terlalu “bagus” untuk ukuran/kecepatan/harganya
    Saya penasaran kapan perusahaan akan mulai meng-host model untuk pekerjaan sehari-hari secara on-premises alih-alih membayar langganan untuk setiap developer. Sudah cukup bagus dan relatif murah

  • Tidak ditanya sih, tetapi menurut kami tidak seorang pun seharusnya memakai model terbaru dan terbaik untuk menulis kode atau hampir pekerjaan apa pun
    Sebaliknya, kita perlu mengembangkan model terbuka untuk tugas tertentu, dan belajar menulis kode, menulis, dan menggambar dengan jari bertulang dan otak berdaging kita sendiri
    Perusahaan besar dan fasilitas riset mungkin bisa memakainya untuk menghasilkan kode, matematika, dan sebagainya, dengan menempatkan para ahli untuk memverifikasi apakah output-nya benar, tetapi bahkan begitu pun mungkin tidak sepadan dengan biayanya. Misalnya, OpenAI tahun lalu mencatat rugi bersih 36 miliar dolar, model terbuka sudah cukup mendekat, dan keseluruhan rencana AI mulai kehabisan penipuan untuk diperah
    Ada banyak hal yang bisa dilakukan bahkan dengan model yang sangat kecil, dan banyak juga tugas yang tidak membutuhkan tingkat komputasi dan memori yang gila, tetapi terlalu sedikit orang yang benar-benar meneliti arah itu