2 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Qwen 3.6 27B lokal memberi nilai nyata pada pekerjaan yang sulit diunggah ke cloud, seperti data pelanggan dan telemetri internal, tetapi tidak bisa menggantikan model SOTA cloud
  • Kekuatan model lokal bukan pada adu skor dengan model berperforma tertinggi, melainkan pada biaya tetap, perlindungan privasi, dan pengurangan risiko vendor; perbedaannya особенно terasa pada penggunaan berat dan fitur internal SaaS
  • Di SWE-Bench Verified, Qwen 3.6 27B mencetak 77,2 poin, sedangkan Claude Opus 4.8 mencapai 88,6%; klaim bahwa "model lokal hanya tertinggal 12% dari SOTA" mengabaikan kemungkinan tuning benchmark dan perbedaan domain nyata seperti Go
  • Perangkat RTX 6000 Pro Blackwell 96GB yang dibeli seharga sekitar 12.000 dolar menutup biayanya hanya dari satu kasus pemulihan pendapatan yang menemukan pelaporan lisensi pelanggan yang kurang
  • Batasan terbesar adalah masalah loop yang memicu output berulang dan halusinasi pada tugas panjang; Qwen lokal lebih cocok untuk dukungan pelanggan, maintenance sempit, serta membaca dan menjelaskan codebase daripada coding jangka panjang tanpa pengawasan

Latar penggunaan AI dan konteks bisnis

  • Tim kecil ini mengelola produk yang berpusat pada infrastruktur level rendah dan primitive Linux seperti OpenFaaS, SlicerVM, Actuated, dan Inlets
    • Berbasis container, Firecracker microVM, protokol jaringan, tunnel, CLI, dan Kubernetes; sebagian besar ditulis dengan Go, dengan sedikit UI React
  • Sudah memakai alat AI sejak era autocomplete tab di VS Code, dan kini sebagian besar kode dikerjakan oleh Claude atau Codex; hampir tidak lagi menulis kode sepenuhnya dengan tangan
  • Untuk mengelola alur kerja panjang di tmux, dibuat Superterm.dev, yang dipakai untuk manajemen sesi/catatan dan umpan balik visual dari coding agent

Titik balik frontier intelligence

  • Titik balik terjadi antara November 2025 hingga Januari 2026, ketika banyak developer di X menilai Claude Opus mampu menangani seluruh pekerjaan mereka
  • Biaya paket coding papan atas stabil di sekitar 200 USD per bulan untuk individu, dan masih bisa dipakai dalam batas 5 jam/mingguan selama menghindari pekerjaan tanpa pengawasan yang berlebihan

Mengapa model lokal menarik

  • Tahun 2026 adalah era ketika siapa pun bisa menyalin sebuah ide dalam semalam hanya dengan satu langganan; SlicerVM dan Superterm juga pernah mengalami kasus kloning
    • Di pasar tempat biaya software mendekati nol, hal yang penting bisa jadi adalah "gratis dan cukup bagus"
  • Model terdepan diperkirakan memiliki 0,5~2T parameter, skala yang sama sekali berbeda dari hardware lokal kelas tertinggi
  • Benchmaxxing

    • Benchmark bersifat publik sehingga bisa dituning untuk menaikkan skor, jadi sulit dipercaya sebagai metrik absolut
    • SWE-Bench Verified berbasis isu Python, tetapi kebanyakan kodenya single-threaded dan sinkron; sebaliknya, sistem terdistribusi Go mencakup channel, context, dan struct di area eksekusi yang luas
    • Karena itu, sulit menyimpulkan hanya dari skor benchmark bahwa “model lokal tertinggal 12% dari SOTA”; dalam pekerjaan nyata, karakteristik bahasa dan sistem sangat menentukan hasil
  • Biaya (Cost)

    • Pernyataan bahwa “model lokal bukan soal biaya” tidak berlaku untuk semua orang
    • Paket coding pribadi memberikan penggunaan tinggi dan kecerdasan setingkat SOTA dengan 200 dolar per bulan, tetapi struktur paket itu tampak disubsidi
    • GitHub Copilot beralih dari model 39 dolar per bulan untuk 1.500 permintaan ke penagihan berbasis token, dan perubahan itu memicu penolakan besar
    • Jika dibebankan dengan biaya token API, titik impas bisa datang cepat
      • Uber membatasi pengeluaran AI hingga 1.500 dolar per bulan per developer per alat
      • Dengan gaji median Uber sebesar 330.000 dolar, jika seorang developer memakai dua alat sampai batasnya, itu setara sekitar 12% dari gaji tahunan
    • Pada penggunaan besar, loop, analisis agent, dan fitur bawaan SaaS, model open weight dan lokal memberi nilai yang besar
  • Kedaulatan dan privasi (Sovereignty and privacy)

    • Ada kasus ketika data sulit diunggah ke paket cloud karena data pelanggan dan ketentuan kontrak
    • ChatGPT Pro dan Claude Max bisa diatur ke masa simpan 30 hari, tetapi bahkan tingkat itu dianggap bisa membatalkan kontrak pelanggan
    • Kasus model Fable 5 milik Anthropic yang dihapus semalam bagi pengguna di luar AS menjadi risiko vendor
    • Model lokal adalah jawaban atas pertanyaan “bagaimana jika frontier lab melakukan X?”

Analogi penempaan bilah — hakikat model lokal

  • Seperti perlakuan panas baja yang harus diulang dari awal jika melewati satu tahap saja, model lokal juga bisa melampaui tujuan dan masuk ke loop jika bekerja terlalu panas
    • Satu-satunya solusi adalah menghentikan harness dan berharap hasil berbeda dengan context yang kosong
  • Seperti penempaan bilah yang tidak dibiarkan tanpa pengawasan, Qwen 3.6 27B tidak diberi tugas horizon panjang
  • Yang saya cari (What I was looking for)

    • Tujuannya adalah privasi, biaya tetap, dan perlindungan dari risiko vendor
    • Kekecewaan muncul saat model lokal diperlakukan sama seperti Claude atau Codex
    • Claude bisa menjalankan loop yang efisien dengan instruksi singkat seperti "do it and test it end to end", menulis PR, melakukan auto code review, dan iterasi dalam 5~15 menit

Pelajaran dari 3090

  • Mulai pada 2023 dengan satu 3090, lalu perlu menambah satu kartu lagi agar bisa memuat model dan menyediakan context yang cukup
    • Di titik inilah Qwen 3.5 menjadi model pertama yang benar-benar terlihat bisa dipakai untuk pekerjaan nyata sebagai agent
  • Saat diberi instruksi untuk "menjelajahi mesin dari semua sudut dan menulis laporan forensik", model membaca semua file satu per satu hingga context penuh lalu berhalusinasi nama file dan tool call (~/faas-netes~/faaned)
    • Setelah cakupan tugas dipersempit menjadi "lihat sekilas secara ringkas", model menghasilkan laporan yang jelas di sekitar 40~50 tok/s
  • Model 27B tidak muat pada satu 3090 dalam full precision, sehingga variabel yang bisa diatur adalah kuantisasi bobot, panjang context, dan kompresi KV cache
    • Ada anggapan umum bahwa bagian keys pada KV cache bermasalah di Q4_0, sehingga paling agresif pun hanya dipakai keys Q8_0 / values Q4_0
  • Bahkan dalam eksperimen vLLM + NVLink + tensor parallelism, kecepatan generasi 3 token per detik lebih lambat daripada llama.cpp, ditambah loop dan waktu muat bobot beberapa menit
    • vLLM cocok untuk serving paralel skala besar, tetapi di lingkungan prosumer, waktu mulai, kesederhanaan, dan latensi pengguna tunggal lebih penting

Pengeluaran besar — adopsi RTX 6000 Pro

  • Untuk mempercepat penyelesaian tiket dukungan pelanggan, dibeli RTX 6000 Pro Blackwell (96GB VRAM) seharga sekitar 12.000 USD
    • Setelah itu harganya naik menjadi sekitar 15.400 USD, sehingga sulit menambah kartu kedua
    • Karena PCI lane, bandwidth, jarak antarkartu, dan beban PSU, kartu ini tidak bisa sekadar ditambahkan ke mesin konsumen
  • Ini adalah taruhan yang diperhitungkan dan membuahkan hasil, tetapi tidak menggantikan langganan Claude

Dukungan pelanggan mudah tanpa kebocoran data

  • Dibuat alat CLI bernama diag yang mudah dijalankan operator untuk menangkap snapshot lengkap instalasi OpenFaaS Kubernetes
    • Dump yang diterima kemudian dianalisis oleh model lokal airgapped di dalam ephemeral VM yang dibuat oleh Slicer
  • Pemulihan pendapatan (Revenue recovery)

    • Dengan memasukkan database telemetri ke model lokal, ditemukan pelaporan lisensi yang kurang selama lebih dari 12 bulan dan tunggakan 4~5 kali lipat pada satu pelanggan; pemulihan ini saja sudah menutup biaya kartu
    • Dump telemetri dan diag tidak dimasukkan ke paket cloud mana pun, terlepas dari kebijakan retensi data
    • ChatGPT Pro dan Claude Max memang bisa diatur ke retensi 30 hari, tetapi bahkan tingkat itu tetap berpotensi membatalkan kontrak pelanggan
    • Model awal gagal dalam aritmetika (menghitung 27,3K sebagai 273.000), dan keliru menilai risiko churn karena mengabaikan eksekusi yang sering hanya karena jumlah fungsinya sedikit
    • Kesimpulannya, lebih baik memfokuskannya pada analisis daripada interpretasi

Setup saat ini

  • Pada rig RTX 6000 dijalankan generasi terbaru Qwopus dan base Qwen 3.6 27B secara bersamaan, berubah sesuai finetune baru dan point release
    • Qwopus adalah model finetune di atas Qwen yang mencoba meningkatkan kemampuan reasoning dan coding dengan menambahkan pelacakan Chain of Thought
    • Sampai недавно thinking dimatikan sepenuhnya, dan saat diaktifkan lagi waktunya bertepatan dengan meningkatnya loop
  • Serving dilakukan dengan dua instance llama.cpp yang independen untuk menjaga panjang context penuh; --parallel 2 akan memotong context menjadi setengah
  • Pada speculative decoding (MTP), tingkat penerimaan sekitar 93%, dan kecepatan naik dari 67 tok/s yang stabil menjadi 130~200 tok/s sehingga terasa lebih cepat daripada cloud
    • Penting mengikuti panduan tuning pada model card; Qwopus optimal saat thinking dimatikan dan temperature diatur sangat panas pada 0,85~1,0

Batasan output berulang dan tugas jangka panjang

  • Masalah terbesar Qwen adalah kecenderungannya masuk ke loop pada tugas berdurasi panjang
  • Saat diminta menyarankan perintah yang akan ditambahkan ke faas-cli, awalnya ia memberi usulan yang masuk akal, tetapi kemudian mengulang daftar perintah yang sama sambil menghabiskan daya 600W selama sekitar 30 menit
  • Ketika diminta menambahkan --json ke seluruh perintah get dan list, satu-dua implementasi awal terlihat masuk akal dan bahkan disertai tes, tetapi sesudah itu masalah membesar
  • Saat diminta memakai Python reverse proxy untuk mencegah peringatan insecure TLS pada endpoint jarak jauh http:// di output --json, versi pertama tampak masuk akal tetapi indentasinya salah; dalam proses perbaikan, file malah rusak lalu model terus mengulang dalam keadaan buntu
  • Rekan tim Han juga mengalami loop serupa, terutama ketika model atau agent berhenti di batas kemampuannya tanpa meminta bantuan
  • Karena masalah ini, Qwen lokal sulit dipercaya untuk hal selain dukungan pelanggan dan analisis telemetri/diag untuk perpanjangan kontrak

Pengukuran akses dan distribusi

  • Awalnya dipakai satu tunnel inlets; jika dua agent terhubung ke instance llama.cpp yang sama, prefix cache saling membatalkan sehingga seluruh prompt harus diproses ulang
  • Saat dipakai banyak orang, sistem ini keluar dari tahap prototipe dan memunculkan masalah manajemen: siapa memakai instance mana, berapa banyak, model apa, biaya listrik, dan bagaimana menangani churn
  • Alih-alih mengedit dan mendistribusikan opencode.json secara manual, dibuat provider Toilgate untuk opencode, sehingga dari model picker pengguna bisa memilih dari base model sampai varian eksperimen Qwopus
    • Toilgate dibuat 100% dengan vibe-coding, dan beban untuk menjadikannya open source terasa besar
  • Konsumsi daya diukur dari stopkontak dengan 2 Shelly Plus Plug, RTX 6000 Pro menggunakan 600W saat inferensi dan tetap senyap, sedangkan dua 3090 bersama-sama sekitar 750W dan sangat bising
  • Perbandingan yang keliru (The wrong comparison)

    • Membandingkan biaya input/output per sejuta token dengan harga API GPT-5.5 adalah perbandingan yang keliru mengingat kemampuan saat ini
    • Pada akhirnya, “AI lokal” bermuara pada masalah operasional yang memerlukan identitas, kontrol akses, metering, kuota, routing model, dan pemantauan daya

Pola penggunaan yang benar-benar membantu

  • Penting untuk mengkhususkan model lokal dan harness untuk tugas yang spesifik
    • dukungan pelanggan
    • maintenance yang ruang lingkupnya jelas
    • pengujian end-to-end
  • Dengan menambahkan instruksi rinci di AGENTS.md, model lokal bisa menambahkan CLI baru dengan lebih cepat dan efisien serta mengujinya sendiri
  • Walau model lokal terbatas dalam menulis kode langsung, ia unggul dalam membaca dan menjelaskan codebase dengan cepat
  • Agent Skills juga membantu, dan ada kasus ketika agent lokal menyiapkan Slicer dari nol di mini PC baru
  • Perlu membiasakan menjalankan tugas yang sama pada model lokal dan model cloud sekaligus
  • Tugas agent tanpa pengawasan dengan cakupan panjang harus dihindari, dan bahkan perangkat yang mendekati 15.000 dolar pun tidak menyelesaikan masalah ini

Kesimpulan saat ini dan batasan pemilihan model

  • Qwen lokal bukan “hampir setara Opus”, melainkan alat yang berbeda yang bernilai pada tugas dan workflow tertentu
  • Qwen 3.5 dinilai sebagai model pertama yang menghasilkan keluaran yang layak dipakai, dan meski ada rumor 3.7, yang diharapkan adalah perbaikan bertahap, bukan perubahan revolusioner
  • Sebagian besar model 70B dianggap sudah tua dan tertinggal satu generasi
  • Qwen 35-A3B populer karena terlihat cepat di MacBook, tetapi karena hanya 3B parameter yang aktif saat generasi, penulis memilih kualitas daripada kecepatan
  • Model yang lebih besar seperti GLM 5.2, Kimi 2.7, Minimax M3, dan Deepseek V4 Flash mungkin bisa dijalankan di sebagian perangkat lokal, tetapi bahkan versi terkuantisasinya sering memerlukan 4~6 RTX 6000 Pro untuk dimuat sehingga berada di luar jangkauan
  • Saat ini, model dense 27B masih belum cukup untuk menulis kode Go sepanjang hari, dan keterbatasan pengetahuan serta perhatian cepat terlihat dalam code review
  • Qwen tidak pandai mengikuti instruksi untuk ringkas, dan dalam auto code review sering menulis hal yang tidak perlu terlalu detail atau berhalusinasi soal isu konkurensi dan race condition, sehingga eksperimen cepat dihentikan
  • Grok Coder Fast 1 yang lebih murah dan lebih cepat sempat bekerja baik selama beberapa bulan sebelum deprecated
  • Contoh terkait dirangkum dalam code review bot dan OpenFaaS's painless customer support and architecture review

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Kalau sudah lama memakai model-model ini, kita jadi sadar bahwa ini bukan sekadar soal “X lebih pintar dari Y” atau “Y lebih murah dari Z”. Mereka adalah alat yang berbeda, dan cara prompting-nya juga berbeda, cukup mirip seperti memainkan alat musik
    Claude kadang justru perlu dibuat sengaja kurang eksplisit atau lebih tidak langsung agar implementasinya punya nuansa atau menghasilkan keluaran yang kreatif. Dan meski terdengar aneh, kalau bersikap ramah ke Claude biasanya ada hasilnya, sementara kalau kasar justru merugikan. Claude lebih kuat meniru tone, jadi sebaiknya hindari terjebak dalam loop negatif
    GPT harus dibuat presisi dan ambiguitasnya dikurangi. GPT cenderung menyelesaikan ambiguitas dengan pendekatan minimax seperti “akan melakukan X tapi tidak Y”, dan kalau cakupannya tidak dijelaskan dengan jelas, ia akan mencoba menangani semua edge case dan cenderung over-engineer
    Qwen perlu diberi bentuk kerangkanya lalu diminta mengisinya. Qwen suka XML, JSON, dan daftar, serta bekerja baik jika diberi banyak contoh tugas sebelumnya. Ini sama sekali bukan hal yang ilmiah, cuma kesan pribadi, jadi hasilnya bisa berbeda

    • Justru bagian “tidak ilmiah dan cuma kesan pribadi” itulah masalahnya. Akan bagus kalau ada semacam lembar produk yang menjelaskan kekuatan dan kelemahan tiap model, sehingga ada decision tree seperti “untuk tugas begini pakai model X”, “model Y sebaiknya dipakai dengan cara Z”
      Tapi dari luar semuanya tampak mirip, dan untuk mencari tahu mana yang sedikit lebih baik dalam hal apa, kita harus melakukan pengujian yang luas, memakan waktu, dan mungkin juga mahal
    • Dulu saya sering menguji seberapa jauh hasilnya menyimpang dengan menjalankan kembali prompt yang sama pada input yang sama, atau dengan memasukkan input yang menurut saya sama secara makna tetapi berbeda ungkapan atau susunannya. Saya banyak melakukan ini khususnya antara Sonnet dan Opus, serta di antara berbagai model Qwen
      Saya merekomendasikan semua orang mencobanya; tidak butuh data khusus selain data yang memang sudah Anda pakai, dan hasilnya cukup mengejutkan. Ada jauh lebih banyak keacakan atau ketidakstabilan daripada yang kita kira, dan teknik prompting yang dianggap lebih baik, atau hasil yang dianggap sangat bagus atau sangat buruk, bisa saja cuma kebetulan atau perbedaan perilaku antar versi/ukuran model. Perbedaan kecil pada input juga bisa sangat membiasakan hasil. Di perusahaan, sebagian hal seperti ini kami sebut kata-kata ajaib, ketika hanya dengan menyebut istilah teknis atau referensi/teknik tertentu hasilnya bisa jauh membaik
      Ada teknik di sini. Dalam loop agen, kalau model dimasukkan ke struktur evaluasi diri yang menyulitkannya untuk curang atau mengambil jalan pintas, dan itu cocok dengan struktur atau domain yang dipelajari, hasilnya bisa sangat bagus. Tapi sulit menemukan titik optimalnya. Sebagai tips, kalau Anda meminta Opus 4.8 mengonversi model PyTorch menjadi ONNX atau model kuantisasi, atau menjalankannya di hardware lain, kemampuannya terasa seperti mengaktifkan skill khusus. Sebaliknya, saya benar-benar tidak bisa membuatnya menulis dan menguji formalisasi EBNF untuk bahasa atau format umum dengan benar tanpa melakukan tipu daya
      Yang paling buruk adalah pengetahuan seperti ini terlalu sering berubah, sehingga kalau Anda bukan orang yang benar-benar melatih modelnya, hampir tidak ada manfaatnya untuk menggali terlalu dalam. Saya berharap stabilitas output lebih ditekankan dalam pelatihan agar perilakunya lebih bisa diprediksi. Mungkin sulit dilakukan tanpa menyebabkan overfitting atau merusak loop eksplorasi-eksploitasi, tetapi kalau pekerjaan batch bisa dibuat lebih stabil, saya rasa saya akan mengeluarkan jauh lebih banyak uang untuk LLM
    • Ini tampaknya lebih dekat ke memutar mesin slot lalu membayangkan sisanya, daripada memainkan alat musik
    • Sebagian besar saya setuju, tapi ada satu hal yang berbeda. Berbicara kasar ke Claude pada saat yang tepat kadang sangat efektif. Khususnya F-bomb terkadang tampaknya cukup membantu membuat Claude keluar dari kondisi buntu
    • Saya meminta GLM 5.2 mem-port game lama C#/XNA ke HTML5, dan ia hampir menyalin kodenya apa adanya, hanya mengecualikan operator overloading yang tidak ada di JS lalu menambahkan kode ekstra agar tetap berjalan
      Permintaan yang sama ke Claude Sonnet 4.6 menghasilkan sesuatu seolah-olah game itu sejak awal ditulis dalam JS. Selain itu, entah kenapa ia membuatnya sebagai satu file HTML, menghapus semua aset, lalu menghasilkan grafik dan musik secara dinamis, bahkan membuat latar baru yang lebih bagus
      Yang saya minta cuma port game, jadi saya kaget. Saya cukup suka dengan pilihan-pilihannya, tetapi saya tidak tahu cara menyalakan atau mematikan perilaku seperti ini. Kadang saya butuh kreativitas, kadang saya ingin model benar-benar melakukan persis apa yang saya katakan
  • Melihat tulisan ini dan pujian terhadapnya, saya merasa seperti melihat kaisar tanpa busana. Kalimat ini saja sudah tidak masuk akal
    “These products use very low level Linux primitives like containers, Kubernetes, Firecracker microVMs, and networked protocols.”
    Dari hal-hal yang bisa disebut “primitif Linux tingkat rendah”, mungkin protokol jaringan masih bisa dipaksakan masuk. Dan ini jelas terlihat seperti tulisan yang dihasilkan AI. Seandainya isinya bisa dipercaya mungkin tidak masalah, tapi saya tidak bisa mempercayainya

    • Zaman sekarang, tingkat rendah berarti JavaScript, bukan TypeScript
    • Memang benar kalimat itu terlalu dipadatkan. Saya sudah menuliskannya ulang, dan maknanya tetap sama
      Tulisan itu bukan hasil AI; kodenya memang saya buat dengan AI, tetapi tulisannya saya buat sendiri. Saya penasaran bagian mana yang tidak dipahami. Tulisan ini menjelaskan pengalaman dan perjalanan kami sendiri, dan untuk klaim tertentu saya dengan senang hati bisa menunjukkan dasarnya
  • Saya tetap yakin bahwa kekuatan AI pada akhirnya muncul bukan ketika ia menjadi satu lagi layanan cloud yang menuntut pembayaran tanpa henti dan makin memburuk seiring waktu demi memuaskan keserakahan pemegang saham korporat, melainkan ketika diterapkan secara lokal, aman, dan privat
    Saya sama sekali tidak akan membiarkan ChatGPT atau Anthropic mengikat data kesehatan saya ke sistem mereka, tetapi saya tetap percaya pada kemampuan AI untuk menemukan pola data yang mungkin saya lewatkan. Karena itu, saya sangat membutuhkan ekosistem khusus lokal yang memungkinkan data diproses dengan aman dan privat oleh sesuatu seperti Qwen atau Gemma
    Hal yang sama berlaku untuk smart home dan asisten pribadi. Pendekatan korporat, di mana perusahaan A mengakses data yang disimpan di perusahaan B, lalu diproses oleh perusahaan D dan E, kemudian dijual ke pengiklan dan broker data tanpa ada cara bagi saya untuk mengekstrak atau bahkan melihatnya di perangkat keras lokal saya sendiri, tidak berkelanjutan untuk penggunaan yang bersifat pribadi seperti ini. Data saya harus dimiliki, dikendalikan, dan diekspos sesuai syarat saya sendiri, dan pertama-tama dipakai untuk memperbaiki hidup saya, bukan untuk memperbaiki laporan laba rugi orang lain. Saya ingin teknologi mengembalikan waktu saya dan meningkatkan hasil saya, dan karena saya sudah cukup sering dirugikan oleh Big Tech, saya dengan tegas menolak anggapan bahwa model bisnis AI-as-a-Service punya kemuliaan atau nilai kepentingan publik
    Kemampuannya sudah ada, dan saya rasa orang-orang yang membangun alat lokal untuk mendukung dan membuka potensi model lokal sedang menuju arah yang benar. Menyenangkan melihat apa yang mereka buat

    • Inti model “lokal” biasanya adalah bahwa model itu memiliki bobot terbuka, dan kadang juga open source. Karena itu, model tersebut bisa dipakai secara lokal, tetapi juga bisa di-host oleh penyedia independen
      Jika memakai model seperti Qwen atau DeepSeek, Anda bisa berpindah-pindah di antara penyedia independen yang tidak mengikat Anda ke satu perusahaan dan mungkin menawarkan jaminan privasi yang lebih baik. Dengan begitu, model juga bisa dipakai di perangkat yang tidak mampu menjalankannya sendiri, asalkan ada koneksi internet
      Kekuatan AI ada pada model open source. Kita perlu memakai model yang menghindari vendor lock-in dan memungkinkan baik penggunaan lokal maupun hosting oleh penyedia independen
  • Tulisan yang bagus. Hanya saja, sepertinya ia meremehkan potensi perbaikan
    Penulisnya sendiri mengakui bahwa membandingkan model lokal setahun lalu dengan model sekarang itu tidak banyak artinya. Memang, banyak orang melihat November tahun lalu, saat Opus 4.5 hadir, yaitu 8 bulan lalu, sebagai titik pertama ketika agentic coding menjadi luas memungkinkan bahkan pada model frontier yang di-host
    Jadi kenapa kita perlu memaku pemahaman tentang apa yang bisa dan tidak bisa dilakukan model lokal pada saat ini? Apa pun kondisinya sekarang, kemungkinan besar setahun lagi akan berbeda. Mengira bahwa pekerjaan berdurasi panjang akan mungkin dijalankan di perangkat keras konsumen maupun profesional mungkin terdengar seperti optimisme naif, tetapi sejauh ini justru para optimis naif itulah yang menang

    • Betul. Jika Opus 4.5 sudah cukup untuk agentic coding 8 bulan lalu, lalu seberapa jauh tertinggalnya model berbobot terbuka? Apakah lebih dari 8 bulan? Seberapa jauh? Apakah beberapa bulan lagi akan mencapai level Opus 4.5, setahun lagi, atau tidak akan pernah?
    • Yang paling besar hilang adalah perbandingan harness. Itu berperan sangat besar. Saya memakai forge, dan meskipun semua keterbatasan model lokal diperhitungkan, tetap mengesankan apa yang bisa diselesaikannya
    • Karena penulis sedang membahas model tertentu, menurut saya tidak masalah jika ia mengabaikan bagaimana model itu, atau model lokal secara umum, akan membaik seiring waktu
      Ini mirip seperti membeli mobil. Yang Anda lakukan adalah mengendarai mobil itu dan membiasakan diri dengan karakternya, bukan memikirkan bagaimana mobil itu atau mobil serupa akan meningkat di masa depan. Itu alat saya, dan saya ingin memanfaatkannya semaksimal mungkin
      Tentu, biaya teknis untuk mengganti model lokal sangat rendah, tetapi mengeluarkan performa maksimal dari model itu butuh waktu yang cukup besar, dan usaha itu mungkin tidak berlaku lagi pada versi baru
    • Saya 100% setuju bahwa Claude 4.5 adalah titik balik untuk agentic coding. Model itu benar-benar mengubah cara pikir saya
  • Tulisan yang menarik. Secara pribadi saya berharap penulis melakukan dua hal dengan lebih baik
    Pertama, seharusnya memakai vLLM alih-alih llama.cpp. Pada perangkat keras NVIDIA, perbedaan vLLM sangat besar untuk beban multi-pengguna dan caching. Saat membaca keluhan tentang model dipakai oleh lebih dari satu pengguna atau cache yang terus hilang, reaksi saya cuma “ya jelas begitu”
    Kedua, anggaran yang dipakai untuk satu kartu itu bisa dimanfaatkan jauh lebih baik pada SPARK. Orang bisa memakai klaster 2 x GX10, dengan total biaya yang bahkan saat ini masih kurang dari setengah biaya yang dibayar penulis, sambil menjalankan vLLM dan Deepseek v4 Flash. Dibandingkan dengan Qwen, bedanya sangat besar. Saya belum pernah melihatnya terjebak dalam loop, dan dari semua yang sudah saya uji, inilah model yang paling mirip Sonnet. Antirez tampaknya juga setuju, sehingga ia membuat fork ds4
    Cara konfigurasinya pada 2 GX10 ada di sini: https://forums.developer.nvidia.com/t/deepseek-v4-flash-offi...
    Performanya adalah prefill 2K token/detik, jadi sangat berguna saat memasukkan banyak source code ke context window yang besar, dan untuk coding di harness pi.dev, generation-nya sekitar 50~60 token/detik. Dengan uang yang dikeluarkan penulis, ia sebenarnya bisa membeli 4 GX10, dan karena vLLM hampir menskalakan tensor parallelism secara linear, kedua angka itu bisa dibuat dua kali lipat

    • Saya juga sudah mencoba menjalankan vLLM di 3090. Untuk pola penggunaan seperti kami, dari satu hingga beberapa pengguna, generation-nya sekitar 3 token/detik lebih lambat, fleksibilitas quantization-nya lebih rendah, dan waktu start-nya benar-benar butuh beberapa menit, bukan hitungan detik satu digit
      Mungkin nanti saya akan mencobanya lagi lebih dalam, tetapi saya tidak punya waktu tak terbatas untuk terus mengutak-atik, dan yang saya bagikan hanyalah perjalanan serta penilaian saya sejauh ini
      Untuk concurrent batch serving, vLLM memang pilihan yang tepat, dan komentar barrkel di bawah ini akurat. Tetapi untuk cara kami memakainya, llama.cpp masih lebih baik
      Jalur Spark/GX10 memang taruhan yang sangat berbeda, dan terima kasih sudah membagikan angkanya. Beberapa bulan lalu, suasana umumnya masih bahwa GX10 hanya cocok untuk fine-tuning dan angka performanya sangat rendah
      Dan kartu itu sama sekali tidak dibeli untuk menggantikan langganan Claude Max. Untuk jenis pekerjaan yang memang menjadi tujuan pembeliannya, saya justru mendapatkan 140~200 token/detik, dan itulah yang penting
  • Tulisannya panjang, tetapi saya tetap tidak mengerti apa sebenarnya inti yang ingin disampaikan penulis. Selain hal yang bisa disimpulkan dari judulnya
    Namun saya jadi tahu bahwa penulis adalah orang yang cukup keren, yang membuat benda fisik sekaligus software, dan orang lain juga memberinya uang. Saya tidak tahu apakah itu ada hubungannya dengan topik yang disiratkan judulnya

    • Belakangan ini semuanya terasa seperti iklan. Tulisannya bukan tidak berguna, tetapi kalau dilihat dari jumlah informasi yang diberikan, dua paragraf saja sebenarnya sudah cukup
  • Tulisan ini merangkum model lokal dengan baik. Berbeda dengan kesan yang kadang dibesar-besarkan seolah ini alat fantastis untuk coding dan pekerjaan agen secara lokal, kenyataannya cukup terbatas, lemah untuk tugas panjang atau kompleks, dan mudah masuk loop atau melupakan pekerjaan
    Hal yang luput dari tulisan itu adalah biayanya juga cukup besar. Bukan cuma biaya perangkat keras, tetapi juga biaya listrik. Mesin 3090 atau 5090 boros daya, dan karena model di mesin seperti itu cukup lambat, konsumsi daya per token juga jadi lebih tinggi
    Titik unggulnya adalah kontrol, privasi, dan prediktabilitas. Misalnya, ini bagus untuk pekerjaan berulang seperti mengategorikan pustaka foto dan video, dan tergantung tarif listrik, bisa juga unggul dari sisi biaya

    • Saya percaya model lokal adalah perluasan penting dari komputer pribadi. Sepertinya komputer pribadi generasi awal juga dulu menerima kritik serupa
    • Yang saya impikan adalah model lokal yang bisa menangani sekitar 80% pekerjaan sehari-hari. Misalnya hal-hal seperti “bagaimana X Handler terhubung ke Y storage?”, “commit fitur itu, tapi tolong kecualikan bagian terkait pembayaran”
      Pemanggilan tool harus bisa dipercaya 99%, dan yang paling penting, model itu harus bisa berkata “tugas ini di luar kemampuan saya” lalu menyerahkannya ke model online berperforma tinggi di suatu pusat data raksasa
      Dengan begitu, semua tugas sederhana bisa diproses di perangkat sambil mengumpulkan data dan memahami konteks masalah, lalu setelah pekerjaan mudah selesai, model yang lebih pintar masuk untuk menyelesaikan masalahnya
      Rasanya benar-benar konyol kalau teknik /commit yang 100% bisa dilakukan model lokal justru memanggil model online. Tapi ini kebanyakan masalah harness, jadi sebagian besar bisa diatasi
    • Model lokal benar-benar hebat untuk banyak kegunaan, dan menurut saya kebanyakan orang tidak membutuhkan model mutakhir. Saat menjalankan model Qwen di 4070 12GB kecil untuk agen email pribadi, yang terpenting adalah privasi
      Model itu bekerja sangat baik, dan untuk pekerjaan coding juga hebat kalau tahu cara memakainya, alih-alih melemparkan rencana besar sekaligus
    • Setelah perubahan MTP masuk, saya mendapatkan 40~50 token/detik dari qwen3.6:27b pada 4090 yang dibatasi di 350W. Berdasarkan batas atas, itu sekitar 8,75J/token
      Saya tidak tahu bagaimana perbandingannya dengan yang lain, tetapi saya menduga 5090 akan sedikit lebih murah karena lebih cepat dalam batas daya yang sama
    • Itu berdasarkan perangkat keras saat ini. Bagaimana dengan perangkat keras masa depan? Bagaimana dengan perangkat keras yang dioptimalkan untuk inferensi? Atau perangkat keras yang dioptimalkan untuk menjalankan model tertentu?
  • Menarik bahwa vLLM dianggap lebih lambat daripada llama.cpp
    Dalam pengalaman saya, vLLM cukup lebih cepat daripada llama.cpp, dan terutama jauh unggul dalam batching beban serentak. Kekurangannya adalah fleksibilitas penyetelannya jauh lebih rendah. Pilihan untuk menjalankan bobot terkuantisasi sangat sedikit, dan waktu startup jauh lebih lama karena mengoptimalkan graph komputasi. Jadi, kalau satu pengguna sedang bereksperimen dengan model yang sedikit terlalu besar untuk perangkatnya, vLLM bisa terasa bikin frustrasi

    • Bisa dibilang begini. vLLM bukan Llama.cpp yang lebih buruk, melainkan alat yang berbeda
    • vLLM sangat bagus untuk continuous batching dan serving model produksi, tetapi di kategori prosumer itu barang yang sama sekali berbeda dan jauh kurang serbaguna
      Ungkapan “dianggap begitu saja” memang agak keras, tetapi kalau dijelaskan lebih rinci, pada perangkat 2x 3090 butuh lebih dari 4 menit untuk load, dan untuk satu request 3 token/detik lebih lambat
      Bagian terburuknya, setelah bersusah payah mengatur dan men-tuning semuanya, modelnya tetap masuk loop. Saya berharap nasihat yang sering terdengar di mana-mana, “pakai saja vLLM”, benar-benar jadi solusi universal
      Satu hal yang perlu diwaspadai di sini adalah jangan sampai orang mulai meremehkan llama.cpp seperti yang dulu terjadi pada Ollama. llama.cpp adalah alat yang sangat mumpuni, dan lebih cocok untuk penggunaan kartu-kartu itu seperti yang benar-benar ingin kami lakukan
      Kalau ingin menggantikan langganan Claude untuk tim besar, vLLM mungkin satu-satunya pilihan, tetapi untuk menaikkan sesuatu seperti GLM 5.2, kita mungkin perlu menambah sekitar 5 kartu RTX 6000 lagi
    • Kalau saya ingat benar, kesepakatan umumnya adalah llama.cpp untuk pengguna tunggal, dan vLLM untuk banyak pengguna atau perusahaan. Mirip, tetapi peruntukannya berbeda
    • Saya agak bingung melihat orang terus memakai llama.cpp sambil mengeluh bahwa prefix cache rusak ketika banyak pengguna menghantam modelnya, tetapi tetap tidak pindah ke vLLM
  • Mereka bilang “modelnya berjalan terlalu panas sampai melewati sasaran dan masuk loop”, lalu di bagian berikutnya berkata bahwa mereka sudah mengatur vLLM sebagai eksperimen terbaru, tetapi bahkan dengan NVLink dan tensor parallelism aktif, generasinya 3 token/detik lebih lambat daripada llama.cpp
    Dalam semua pengujian saya, menjalankan vLLM selalu layak. Itu adalah satu faktor tunggal yang paling membantu untuk masalah loop, agen yang mulai aneh, hilangnya fokus pada tugas, dan konteks panjang yang pada praktiknya jadi tidak berguna
    Di vLLM, memakai model FP8 dan cache yang tidak dikuantisasi membuat pengalaman keseluruhan naik satu tingkat dibanding stack lain mana pun. Setelah itu, kita bisa berhenti mengutak-atik pengaturan dan fokus memakai model untuk hal lain

    • Bagian ini yang benar-benar membuat saya penasaran. Bukan karena saya tidak setuju, tetapi karena saya ingin menghindari agen yang mulai aneh. Saya penasaran apakah vLLM itu dipakai sendiri, untuk tim, atau untuk aplikasi
      Dan saya juga penasaran apakah menurut Anda ada kebutuhan perangkat keras minimum agar vLLM berguna dengan cara seperti ini. Saya berencana membuat server inferensi rumahan sebagai proyek akhir pekan dengan komponen data center lama, dan saya terus mematangkan konfigurasi akhirnya di kepala
    • Saya penasaran kenapa memakai cache yang tidak dikuantisasi alih-alih Q8
  • Untuk orang-orang yang ingin membeli dan merakit perangkat AI sendiri, saya sarankan terlebih dahulu mencoba terhubung ke salah satu dari berbagai penyedia inferensi dan memakai beragam model secara langsung selama beberapa waktu
    Biayanya hampir tidak ada, tetapi itu memberi pratinjau yang cukup bagus tentang apa yang bisa Anda dapatkan dari perangkat milik sendiri. Hanya tips ramah saja