6 poin oleh GN⁺ 8 jam lalu | 2 komentar | Bagikan ke WhatsApp
  • Muncul pengembang yang sepenuhnya meninggalkan model cloud karena privasi data dan penggunaan gratis LLM, serta bisa bekerja dengan harness coding offline yang terkontainerisasi dan tersandbox tanpa panggilan jaringan eksternal
  • Model utama yang digunakan adalah Qwen3.6 35B-A3B (cepat karena hanya 3b parameter aktif) dan model dense 27B, dengan trade-off antara akurasi coding dan kecepatan generasi token
  • Kombinasi yang paling sering disebut adalah Pi harness dan llama.cpp, dan fakta bahwa pemanggilan alat (tool calling) untuk pertama kalinya bekerja konsisten pada model lokal sangat meningkatkan pengalaman penggunaan
  • Dibanding Claude Opus, model lokal berada pada tingkat "junior yang butuh arahan vs senior yang ikut merancang bersama", sehingga prompt yang presisi dan pemecahan tugas menjadi keharusan
  • Saat ini model lokal dinilai berada di sekitar level frontier 8~18 bulan lalu, tetapi menawarkan keunggulan nyata berupa gratis, privasi, dan tanpa kekhawatiran kuota

Contoh migrasi ke model lokal dan konfigurasi hardware

  • Menjalankan Qwen3.6 35B-A3B di Mac Studio 128GB atau MacBook RAM 36GB dengan Pi harness, dan berhasil merombak total homepage serta blog situs berbasis Django + Wagtail
    • Saat mengembangkan dengan Wagtail yang kurang dikenal tanpa akses internet, model tidak selalu tahu caranya
    • Untuk tugas kompleks menggunakan Qwen3.5 122b, tetapi sangat lambat karena 10b parameter aktif
  • Di lingkungan memori terpadu Strix Halo 128GB, Pi diisolasi dalam kontainer dan hanya diberi akses ke direktori kerja tanpa kredensial
    • Untuk chat dan terjemahan memakai Gemma 4 31B, untuk audio memakai Gemma 4 12B
    • Memiliki banyak model seperti Qwen 3.5 122B-A10B, Nemotron 3 Super 122B-A12B, Step 3.7 Flash, GPT-OSS 120B, tetapi untuk coding 35B-A3B paling optimal
  • Pada mesin dual RTX3090 yang dibuat 5 tahun lalu, model Qwen dan Gemma dengan kuantisasi UD-Q4_K_XL mencapai ~150tok/s, dan seluruh konteks 300k diproses di dalam VRAM
    • Ini menggantikan langganan Claude $100/bulan, dan untuk penggunaan pribadi yang gratis lebih diutamakan
    • Dipakai untuk berbagai proyek seperti launcher Android TV, portal manajemen k8s, integrasi Home Assistant, serta manajemen belanja dan pola makan
  • Dengan RTX 6000, kombinasi Qwen 3.6 27b + Open Code menangani 90% pekerjaan coding, tetapi untuk tugas yang sangat kompleks dan polishing UI tetap kembali ke Codex
    • Pada konteks 256k, kualitas dan kecepatan menurun setelah melewati 100k, dan menjadi parah setelah 150k
  • Di RTX 5090, Qwen 3.6 27b (kuantisasi Q6) + llama.cpp, daya GPU dibatasi dari 600W→450W agar tetap senyap
    • Sudah meluas ke pekerjaan harian seperti commit branch, pembuatan PR, settlement invoice Stripe CLI, dan analisis beban Elasticsearch

Jenis model dan karakteristik performa

  • Pembedaan MoE vs model dense berdampak langsung pada kualitas coding
    • Qwen3.5-122B pada praktiknya adalah 122B-A10B, yaitu MoE dengan hanya 10B yang aktif, sedangkan Qwen3.6-27B adalah model dense dengan seluruh 27B selalu aktif
    • Kualitas ekuivalen dense bisa diperkirakan lewat rata-rata geometri parameter aktif dan total pada MoE, sqrt(35×10)≈18.7
    • MoE memiliki kualitas lebih rendah dibanding model dense dengan ukuran setara, tetapi lebih cepat, dan MoE besar pun bisa dijalankan lewat offload ke CPU RAM
  • Tingkat kuantisasi memengaruhi munculnya loop dan akurasi
    • Kuantisasi Q8 lebih lambat, tetapi mengurangi loop sehingga menghemat waktu total
    • Sangat sensitif terhadap kuantisasi bagian K pada KV cache; F16 K + Q8 V sangat mengurangi loop
  • Penambahan dual GPU bukan untuk kecepatan inferensi, melainkan menambah kapasitas VRAM
    • Gemma-4 31B dense dan 26B MoE sama-sama memberi kualitas serupa pada kuantisasi Q4, tetapi MoE ~3x lebih cepat (150tok/s vs 46tok/s)

Batasan model lokal dan strategi mengatasinya

  • Perlu prompt yang presisi

    • Jika asumsi dibiarkan terbuka, model akan memilih jalur tercepat (misalnya CSS di dalam HTML) dan menghasilkan keluaran yang bukan pilihan terbaik dari sisi arsitektur
    • Jika arsitektur tidak disebutkan, model akan melakukan perbaikan cepat namun berantakan, dan jika tidak diperintahkan menghapus kalimat debug, itu akan dibiarkan
    • Claude Opus bisa menyimpulkan niat pengguna, tetapi model Qwen kecil hanya melakukan apa yang diperintahkan, sehingga pengetahuan desain harus "diaktifkan" secara eksplisit
  • Loop dan kesalahan alat edit

    • Sering salah memanggil alat edit, lalu alih-alih retry malah menghabiskan token berpikir dan membaca ulang file
    • Retry langsung sering kali justru memperbaiki pemanggilan edit, tetapi model mengira masalahnya lebih mendasar dan membuang token tanpa perlu
    • Pendekatan edit berbasis hash (mereferensikan hash tiap baris kode) bisa mengurangi kesalahan edit, tetapi runtuh dengan cara lain setelah kualitas konteks terkuras
    • Membatasi edit alih-alih rewrite lewat aturan AGENTS.md memberi perbaikan parsial
  • Manajemen context window

    • Window 65.000 sudah terlampaui hanya untuk membaca struktur file kode; dibutuhkan lebih dari 200k
    • Qwen3.6-35b menangani konteks 256k secara normal pada 128k dengan VRAM 16gb
    • Qwen3.6-27B mendukung konteks 1 juta token, tetapi di DGX Spark memerlukan sekitar 100GB memori untuk KV cache f16

Caching prompt dan masalah pelestarian reasoning

  • Model hibrida Qwen mengalami masalah karena tidak bisa menangani prompt caching dan harus memproses ulang seluruh konteks di setiap giliran
    • Sebagian besar model lokal tidak dilatih untuk mempertahankan seluruh reasoning antargiliran, sehingga setelah rantai tool calling yang panjang perlu memproses ulang saat reasoning sudah dibuang
    • Qwen 3.6 dilatih untuk mempertahankan reasoning, sehingga penggunaan cache membaik dengan pengaturan chat-template-kwargs = {"preserve_thinking": true}
  • LLM modern tidak hanya memakai full attention, tetapi juga local attention (sliding window, model state space Mamba-2)
    • Full attention berbiaya O(n²) dan lemah terhadap reasoning yang nilainya berubah seiring waktu
    • Local attention menyimpan snapshot sehingga saat cache dihitung ulang bisa dimulai dari snapshot terakhir, tetapi jika snapshot besar maka ada batas penyimpanan
    • Qwen 3.5 ke atas menggunakan Gated DeltaNet yang menginterleaving layer attention dan SSM
  • Vulkan justru lebih cepat daripada ROCm, dan menjaga llama.cpp tetap pada versi terbaru penting untuk mengatasi masalah pemrosesan ulang
  • Masalah divergensi tokenizer, di mana token generasi autoregresif diparse berbeda saat prefill, sulit diselesaikan

Perdebatan ekonomi biaya dan listrik

  • 2x RTX3090 sekitar $4400, setara 3,6 tahun langganan Claude $100/bulan, belum termasuk listrik dan komponen lain
    • Bahkan setelah 3,6 tahun, harga GPU berkapasitas besar kemungkinan tetap tinggi
    • Di wilayah dengan biaya listrik tinggi, titik impas bisa hanya sekitar 1 tahun
  • Konsumsi daya cenderung lebih rendah dari perkiraan
    • Pada beban penuh 1.2kw, biayanya sekitar $0.12/jam, dan bisa lebih murah jika terhubung ke solar
    • Beban inferensi berbeda dari gaming sehingga isu listrik tidak terlalu besar; sistem idle 200W dan inferensi sekitar 350-450W
  • Terkait waktu membeli hardware
    • Saat ini bukan waktu terbaik untuk membeli, dan 24-36 bulan lagi diperkirakan menjadi jendela berikutnya
    • Mac mini M4 Pro RAM terpadu 48gb seharga ~$2k direkomendasikan sebagai perangkat inferensi hemat, ~150tok/s dan bisa dipakai 10 tahun ke depan
    • AMD R9700 VRAM 32gb seharga ~$1200-1400 dinilai lebih menguntungkan untuk AI daripada 2x 9070
  • Menyewa layanan (langganan cloud) juga merupakan strategi yang valid; tidak semua orang bisa mengeluarkan banyak uang untuk hardware

Penilaian dibanding model frontier

  • Penilaian bahwa model lokal berada di "kualitas model edge 8~12 bulan lalu" berulang kali muncul
    • Di benchmark, Qwen 3.6 35B-A3B melampaui Claude 4 Opus, tetapi ada kemungkinan sebagian model open source di-benchmark-optimize
    • Dalam satu uji browser OS di YouTube, Qwen 3.6 menghasilkan lebih banyak fitur yang benar-benar berfungsi daripada Claude 4 Opus
    • Namun itu dibanding model frontier setahun lalu, dan ada sanggahan kuat bahwa MoE 3B aktif tidak bisa dibandingkan dengan Opus atau Sonnet terbaru
  • Ketidaksepakatan definisi "setara Opus" adalah inti perdebatan
    • Istilah itu dipakai sejak Claude 3 Opus pada 2024, dan masih ada jarak dengan model terbaru seperti Opus 4.8 dan 4.6
    • Pada November tahun lalu, Opus 4.5 dan GPT 5.2 membawa lompatan bertahap pada model frontier, sehingga biasanya "setara Opus" merujuk pada 4.5 ke atas
    • Model open-weight terbesar memerlukan hardware kelas server 8x H100, dan model rumahan masih belum sampai
  • Sebagian orang menilai model lokal berada di antara Haiku 4.5 dan Sonnet 4.5, dan bisa memberi hasil baik bila dimikromanajemen
  • Kesenjangan antara frontier dan lokal kemungkinan akan selalu ada, tetapi bagi banyak pengguna model lokal sudah cukup praktis

Strategi harness dan alur kerja

  • Pi harness adalah yang paling sering direkomendasikan, bersifat seperti agent development kit, dianalogikan sebagai "neovim untuk vscode milik Claude"
    • Menyediakan alat dasar (akses file, edit, bash), dan bisa ditambah adaptor MCP serta ekstensi pencarian web
    • Perintah /tree mengembalikan konteks ke sebelum tool calling yang gagal, dan /new menginisialisasi ulang konteks
  • Alur kerja hierarkis dan pembagian peran dipakai untuk menutupi keterbatasan
    • Model frontier digunakan untuk menulis spesifikasi, desain, dan rencana eksekusi, lalu model lokal untuk implementasi
    • Agen dihubungkan berdasarkan peran (manajer proyek, agen skema, agen coding), dan hanya error yang diteruskan ke tahap berikutnya lewat orchestrator dan Playwright
    • Tugas dipecah menjadi TODO atomik dan file referensi disebutkan secara eksplisit untuk menghemat konteks
  • OpenCode kadang mengubah system prompt di setiap giliran sehingga tidak kompatibel dengan KV cache, dan dukungan untuk LLM lokal bersifat manual dan rumit
  • Ollama dikritik karena menambahkan model cloud dan monetisasi; yang direkomendasikan adalah llama.cpp dan llama-swap, sementara di macOS llm-mlx 10-15% lebih cepat

Contoh berbagi konfigurasi konkret

  • Di lingkungan AMD 7900xtx 24gb + 5950x + 64gb DDR4, Qwen3.6-27B-MTP-UD-Q4_K_XL dijalankan dengan llama.cpp Vulkan
    • Flag utama: -ngl 99 (offload semua layer ke GPU), -c 80000 (konteks 80K), --cache-type-k q8_0 --cache-type-v q8_0 (KV cache 8-bit), -fa on (flash attention), --spec-type draft-mtp (draft MTP)
    • Sampling: --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 (nilai rekomendasi Qwen untuk coding)
    • Performa: generasi token ~65t/s, pemrosesan prompt ~600t/s, cold start ~30 detik
    • Kombinasi Crush harness + Headroom + pencarian web Exa MCP membuat langganan pribadi Claude Code dihentikan
  • Pada V100 32GB, Qwen3.6-27B-UD-Q4_K_XL + Pi, dengan fork llama-cpp-turboquant dan patch MTP
    • Konteks 200.000, --spec-type mpt --cache-type-k turbo3 --cache-type-v turbo3 menghasilkan 45-60 t/s
  • Pada Strix Halo 128GB, Qwen3.6-35B-A3B memproses prompt sekitar 800tps dan menghasilkan token 50tps, dengan konsumsi daya hampir nol saat idle
    • Ada kekecewaan karena versi 122B belum dirilis, dan di lingkungan memori terpadu model dense lambat karena batas bandwidth memori
  • Ada juga keluhan soal kurangnya detail, dengan tuntutan agar kuantisasi, parameter, konteks, GPU, VRAM, dan konfigurasi harness dijelaskan secara spesifik

2 komentar

 
b89kim 1 jam lalu

Saat memakai Pi-coding-agent+Qwen3.6-27B-MTP-GGUF, performanya kira-kira setara Sonnet 4.5. Cukup untuk membuat aplikasi sederhana, dan kalau perlu saya sesekali menambahkan API gratis (seperti GLM5.1). Konsumsi daya GPU kelas 4090/5090 memang besar, tetapi kalau agent-nya dirancang dengan baik ternyata tidak sering perlu dijalankan berjam-jam.

 
GN⁺ 8 jam lalu
Komentar Hacker News
  • Greenpants: Privasi data dan LLM gratis itu penting, jadi saya menaruh Pi coding harness di dalam container/sandbox dan memakainya sepenuhnya offline
    Saya memakai Qwen3.6 35B di Mac Studio 128GB atau MacBook 36GB, dan karena parameter aktifnya 3B, performanya cukup cepat. Saya merombak total homepage dan blog dengan Django + Wagtail, tetapi karena Wagtail kurang dikenal, agen tanpa internet tidak selalu memahaminya dengan baik
    Untuk pekerjaan yang lebih kompleks saya juga memakai Qwen3.5 122B, tetapi dengan 10B aktif jadi jauh lebih lambat. Dibanding model besar seperti Claude, pertanyaan harus dibuat sangat presisi, dan asumsi yang dibiarkan kosong biasanya diisi dengan jalan termudah sehingga menghasilkan pilihan arsitektur yang kurang ideal seperti menaruh CSS di HTML
    Pemanggilan alat edit juga sering salah dan kadang masuk loop. Qwen3.6 35B itu seperti junior yang punya pengetahuan umum tetapi harus terus diarahkan, sedangkan Claude Opus lebih mirip senior yang bisa ikut memikirkan arsitektur. Kalau Opus memberi percepatan 15x, Qwen yang sepenuhnya offline kira-kira memberi percepatan 5x, tetapi mengingat gratis, itu tetap mengejutkan

    • lambda: Saya juga menjalankan Pi di dalam container, lalu menghubungkannya ke llama.cpp di container lain
      Akses jaringan saya izinkan, tetapi kredensial diblokir, dan hanya direktori kerja serta ~/.pi yang boleh diakses. Saya memakai laptop Strix Halo 128GiB unified memory, dan karena saya tidak suka memprogram dengan alat proprietari, saya belum benar-benar membandingkannya dengan frontier model
      Saya masih skeptis terhadap AI, jadi lebih banyak waktu saya habiskan untuk mencoba menjebol model dan melihat kekuatan serta kelemahannya daripada benar-benar memakainya, tetapi untuk agentic coding saya paling sering memilih Qwen 3.6 35B-A3B. Untuk chat umum dan terjemahan saya sering memakai Gemma 4 31B, dan untuk audio Gemma 4 12B
      Saya juga menyimpan Qwen 3.5 122B-A10B, Qwen 3.6 27B, Nemotron 3 Super 122B-A12B, Step 3.7 Flash, Minimax M2.7, dan GPT-OSS 120B, tetapi untuk coding dalam konfigurasi seperti ini, Qwen 3.6 35B-A3B saat ini paling mendekati sweet spot
    • geophile: Pengalaman saya hampir sama. Perencanaan harus dilakukan dengan sangat hati-hati, dipecah menjadi langkah-langkah kecil yang mandiri, dan desainnya juga harus dituliskan manusia dengan jelas
      Kalau detailnya dibiarkan diisi sendiri oleh qwen, ia akan masuk loop tepat sebelum mulai menulis. Masalah tidak bisa mengedit juga terasa aneh, jadi saya mengubah AGENTS.md untuk membatasi edit alih-alih menulis ulang, dan itu sedikit membantu
    • adyavanapalli: Untuk alat edit, mungkin layak mempertimbangkan pendekatan berbasis hash yang meng-hash setiap baris kode lalu merujuk hash itu saat melakukan penggantian
      Pendekatannya bisa dilihat di https://blog.can.ac/2026/02/12/the-harness-problem/. Saya belum membenchmark-nya dengan benar, tetapi secara subjektif kesalahan edit terasa berkurang, meski bisa berbeda tergantung lingkungannya
  • horsawlarway: Untuk penggunaan pribadi, saya menghentikan langganan Claude 100 dolar per bulan dan menggantinya dengan pi harness yang menunjuk ke unsloth studio serta model Qwen dan Gemma
    Di mesin dual RTX3090 yang saya rakit sekitar 5 tahun lalu, saya menjalankan unsloth/Qwen3.6-35B-A3B-MTP-GGUF dan unsloth/gemma-4-26B-A4B-it-GGUF dengan kuantisasi UD-Q4_K_XL, dan keduanya menangani sekitar 150tok/s serta konteks penuh 300k di dalam VRAM
    Memang tidak sebagus Claude, tetapi gratis, dan untuk penggunaan pribadi perbedaannya tidak terlalu jadi masalah. Saya juga memasang OpenClaw pada server inferensi yang sama, dan itu adalah use case yang cukup cocok untuk model lokal
    Sebagai contoh saya membuat launcher pengganti Android TV, portal admin untuk layanan k8s, integrasi dan otomasi Home Assistant, belanja bahan makanan dan pengelolaan menu makan, serta workflow pembuatan aset 3D ComfyUI. Jika software-nya untuk menghasilkan uang, saya tetap akan merekomendasikan penyedia berbayar, tetapi model lokal juga bisa melakukan hal-hal yang cukup keren

    • rootlocus: Dua kartu RTX3090 harganya sekitar 4.400 dolar, jadi bahkan tanpa menghitung biaya listrik dan komponen lain, itu setara 3,6 tahun Claude 100 dolar per bulan
    • kpw94: Jika menjalankan gemma yang dikuantisasi ke UD-Q4_K_XL, mungkin ada baiknya juga melihat model QAT seperti unsloth/gemma-4-26B-A4B-it-qat-GGUF
      Lihat https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF dan https://blog.google/innovation-and-ai/technology/developers-.... Pada update 9 Juni, dukungan MTP juga ditambahkan
    • twothreeone: Saya juga mencoba menjalankan unsloth/Qwen3.6-35B-A3B-MTP-GGUF yang sama di satu 3090, konteks 128k, kuantisasi Q4_K, dan mendapat sekitar 40~60tok/s
      Hal yang paling mengganggu adalah kualitas output pada tugas coding nyata dengan kompleksitas menengah. Saya harus terus berpindah antara “mendorong lewat prompt” dan “mengimplementasikan sendiri”, jadi beban pergantian konteksnya besar, dan tiap beberapa menit saya harus menilai apakah instruksinya yang saya beri salah atau modelnya yang kurang mampu
      Model ini juga kurang mampu naik dari detail implementasi level rendah ke desain level tinggi, bahkan tidak bisa merender hal sederhana seperti tabel dengan baik. Di Claude masalah seperti ini tidak ada, jadi untuk saat ini sulit dianggap sebagai pengganti, meski saya berharap beberapa bulan lagi itu bisa berubah. Saya mengganti Claude CLI dengan aider, tetapi pilihan ini juga mungkin bukan yang terbaik
  • bluejay2387: Sekitar 90% pekerjaan coding saya ditangani dengan Qwen 3.6 27B, Open Code, skill kustom, dan Semble
    Memang tidak sepintar CC atau Codex, tetapi sebagian besar pekerjaan tetap bisa diselesaikan. Saya punya RTX 6000 jadi TPS cukup cepat, dan GPU ini awalnya memang untuk pekerjaan lain
    Awalnya ini eksperimen untuk melihat seberapa dekat bisa mendekati model frontier, tetapi hasilnya cukup bagus sampai saya terus memakainya. Untuk pekerjaan yang benar-benar rumit atau merapikan UI, saya tetap kembali ke Codex, dan UI tampaknya memang titik terlemah Qwen
    Bukan rekomendasi. Tidak banyak orang punya RTX 6000, dan biayanya setara beberapa tahun langganan MAX CC atau Codex. Meski begitu, potensinya terlihat, dan mungkin beberapa tahun lagi akan jadi praktis
    Pada konteks 256k saya mengatur compact target ke 75%, dan kalau percakapan melewati 100k kualitas serta kecepatan mulai turun, lalu setelah 150k jadi sangat bermasalah. Saya juga mencoba Qwen 3.5 122B, tetapi untuk coding hasilnya jauh lebih buruk daripada 3.6 27B. Gemma 4 31B bagus untuk tugas lain, tetapi untuk coding Qwen lebih unggul, dan Nemotron Super 120B juga ternyata kalah dari Qwen untuk coding

    • heipei: Saya menjalankan Qwen 3.6 27B Q6 dengan llama.cpp di RTX 5090, dan sekarang cuma memakai pi agent
      Karena lokal, saya sama sekali tidak perlu memikirkan harga token, kuota, zona waktu, atau sensitivitas data. Saya membatasi daya GPU dari 600W ke 450W, dan hasilnya bahkan saat inferensi pun tetap sangat senyap
      Saya jadi sering memakainya bukan cuma untuk coding, tetapi juga tugas-tugas harian. Misalnya commit ke branch dan membuat PR, mengambil invoice jatuh tempo dan menunggak lewat Stripe CLI lalu mencocokkannya dengan CSV bank, merangkum penyebab beban saat ini dengan kredensial Elasticsearch, atau mengecek apakah codebase mendukung X dan di mana implementasinya
    • bo1024: Qwen3.5-122B sebenarnya adalah Qwen3.5-122B-A10B
      A10B adalah model mixture-of-experts, jadi hanya 10B parameter yang aktif pada satu waktu, sedangkan Qwen3.6-27B adalah model dense yang selalu mengaktifkan seluruh 27B parameter. Karena itu, pada banyak tugas model dense 27B bisa lebih baik daripada 122B-A10B
    • user43928: Di kantor saya dipaksa memakai Qwen 3.6 27B dan rasanya hampir tidak berguna
      Lebih baik saya kerjakan sendiri; implementasinya berantakan atau debugging-nya meleset total. Selain fungsi pencarian yang sedikit lebih pintar, apa pun di bawah Sonnet terasa seperti buang waktu
      Agak aneh juga memakai Codex untuk merapikan UI. Codex terkenal buruk di UI dan tertinggal jauh dari Claude Opus. Altman juga sempat menulis bahwa bagian itu sedang diperbaiki di model berikutnya
  • pierotofy: Kombinasi Llama.cpp + Qwen3.6-35B(MTP) + OpenCode cukup mumpuni di satu RTX 3090, dan lebih cepat daripada kebanyakan model cloud
    Kualitasnya terasa seperti memakai model edge dari 8~12 bulan lalu. Pengaturannya saya rangkum di https://github.com/pierotofy/LocalCodingLLM/

    • jacobgold: Kalau “kualitas model edge 8~12 bulan lalu”, itu bagus sekali untuk hobi, tetapi untuk dipakai pengembang profesional sebagai andalan coding agent, menurut saya titik kritisnya ada sekitar 6 bulan lalu ketika Opus 4.6 keluar
    • trueno: Saya punya MacBook Pro M4 Max 128GB dan ingin mencoba ini, tetapi belum sempat
      Saya penasaran dengan pengalaman pengguna Mac yang memakai konfigurasi serupa. Saya sering melihat perdebatan soal lokal, tetapi patokannya terus berubah dan istilahnya juga belum akrab. Saya ingin tahu kesan objektif tentang apa yang hilang dan apa yang didapat saat beralih ke lokal
    • atomicnumber3: Sekarang saya sama sekali tidak ingin memakai Claude lagi
  • codinhood: Sepertinya pertanyaan ini tidak akan mendapat banyak jawaban yang “nyata”. Saat ini biaya peluang dari tidak memakai model terbaru dan terbaik masih terlalu besar
    Saya mengecek tiap bulan dan kesimpulannya tetap sama. Waktu, usaha, dan biaya untuk membuat model lokal dan alat coding pendukung mendekati Sonnet/Opus di Claude Code masih belum sepadan
    Kalau memang sudah sepadan, pasti ini sudah cukup disruptif sampai jadi berita. Bukan berarti saya menolak kemungkinan ada yang sudah berhasil, tetapi ini lebih seperti menerapkan pisau cukur Occam agar tidak jatuh terlalu dalam ke lubang kelinci

    • pyeri: Bahkan kereta FOMO biaya peluang itu pada akhirnya akan mencapai titik jenuh, dan menurut saya kita sudah melewatinya
      Model sekelas Mythos memang canggih di sisi penalaran, tetapi untuk ruang masalah yang coba dipecahkan kebanyakan pengembang, manfaatnya tidak sebesar itu. Keluarga Sonnet/Opus saat ini, kira-kira di level 4.8, kemungkinan besar akan menjadi tingkat yang dipakai luas di perusahaan
      Model lokal memang belum sampai ke sana, tetapi keluarga DeepSeek, Kimi, GPT, dan MiniMax bisa dipakai murah lewat API seperti NVIDIA, OpenRouter, dan Groq, dan mereka sudah cukup mendekati level Sonnet
    • mark_l_watson: Kesimpulan yang sama tampaknya benar. Saya ingin beralih ke sistem bertingkat yang terdiri dari lokal, API komersial seperti OpenCode + DeepSeek v4 flash, lalu DeepSeek v4 Pro
      Dengan begitu pekerjaan yang perlu tetap bisa ditangani sambil secara bertahap memindahkan lebih banyak ke lokal. Bahkan di hardware yang sama pun, setup lokal sekarang jauh lebih baik daripada 2 bulan lalu, dan dibanding 6 bulan lalu peningkatannya sangat dramatis
    • gunapologist99: Mungkin bukan Occam, melainkan Pareto yang lebih layak dipikirkan
      Kalau benar-benar yakin akan sampai ke sana dalam beberapa tahun, lebih baik mulai mengutak-atiknya dari sekarang, dan terutama untuk proyek yang pendek atau kecil, atau proyek besar yang termodularisasi dengan baik, hasilnya bisa cukup mengejutkan
  • sosodev: Pertanyaan ini punya rentang kemampuan dan ekspektasi yang terlalu luas. Kalau cuma menjalankan model 8B sambil berharap vibe coding atau one-shot, itu bakal sulit
    Kalau bisa menjalankan model kelas sekitar 30B, untuk tugas dengan cakupan yang pas dan definisinya jelas, performanya cukup bagus. Saat ini di rentang ini, Gemma4-31B dan Qwen3.6-27B tampak paling bagus
    Kalau ingin inferensi lebih cepat, bisa beralih ke model MoE, tetapi untuk sebagian besar tugas kualitasnya turun cukup terasa. Untuk tugas berskala kecil, one-shot·vibe coding juga mungkin, tetapi tetap jauh lebih baik kalau ada arahan
    Kalau menginginkan kemampuan kelas frontier, setidaknya dibutuhkan memori 128GB dan komputasi besar atau kesabaran yang sangat tinggi. Kebanyakan orang kekurangan uang atau kesabaran. Kesabaran untuk model lokal bukan cuma menunggu token keluar, tetapi juga usaha untuk menyiapkan dan menjalankannya dengan benar sesuai workflow dan hardware sendiri

    • argee: Di MacBook M4 Pro dengan RAM 48GB, saya memakai Gemma 4 26B A4B untuk belajar Rust dan menangani berbagai pertanyaan
      Saya tidak percaya model ini akan andal untuk one-shot selain perubahan yang sangat sepele di IDE atau harness. Meski begitu, kalau manusianya tetap memegang setir, melihat jalan, dan berkendara di bawah batas kecepatan, model ini cepat dan cukup bagus sebagai copilot untuk tugas dengan konteks kecil hingga menengah
      Dibandingkan beberapa tahun lalu, ini luar biasa, dan kalau bukan karena ini, saya rasa saya hampir tidak akan memakai AI untuk coding. Saya tidak suka merasa jadi bodoh atau buntu hanya karena koneksi internet terputus
    • user43928: Saya menyuruh model kecil, khususnya GPT 5.4 Mini, memindahkan perubahan kode 10~20 baris ke file lain, tetapi bahkan pada percobaan kedua pun ia tetap mengubah kode dan memasukkan bug
      Saya memang tidak mengharapkan keandalan sempurna, tetapi saya kira setelah perbedaannya ditunjukkan, setidaknya pada percobaan kedua ia akan benar. Kenyataannya, ia dengan percaya diri bilang kodenya sudah sama sambil menambahkan bug halus lain
      Saya tidak tahu pekerjaan seperti apa yang cukup untuk model kelas sampah seperti ini. Mungkin selama beberapa menit ia bisa berpura-pura kompeten, tetapi hasil akhirnya tetap tidak benar. Paling banter saya rasa cocok untuk pencarian yang lebih pintar atau autocompletion
  • mgsram: Setelah sekitar setahun memakai LLM lokal, sekarang saya mantap dengan kombinasi Qwen3.6 27B dense GGUF, OpenCode, dan llmster(LM Studio) di Mac Studio RAM 512GB
    Saya juga pernah mencoba Qwen 3.6 35B-A3B, tetapi akurasi model dense setingkat lebih tinggi, dengan konsekuensi mengorbankan token/detik. Qwen3.6 27B biasanya menghasilkan sekitar 25~40tok/s
    Awalnya saya memakainya untuk alat sederhana, tetapi 3~4 bulan terakhir saya benar-benar memakainya untuk coding tingkat produksi pada stack software otomotif C/C++ dan tool Python. Kecepatan yang lebih rendah justru membantu saya tetap bekerja pada laju yang pas
    Untuk pengembangan baru·penulisan ulang, saya memakai Sonnet untuk menyusun desain·arsitektur·penalaran·rencana eksekusi detail, lalu memecahnya dan memasukkannya sebagai prompt yang presisi. Untuk pekerjaan pada kode yang sudah ada, tetap dibutuhkan penilaian, dan kalau saya merasakan batas model lokal, saya kembali ke Claude Code
    Baru-baru ini dengan Qwen 3.6 saya membuat penulisan ulang penuh layanan manajemen daya berbasis C dengan merujuk pada kode C++ yang ada, parser spesifikasi Excel yang kompleks, dan alat untuk menerjemahkan konten CJK ke bahasa Inggris lalu memasukkannya ke KG

  • 3abiton: Karena semua orang menyebut Qwen, saya juga menjalankan Qwen 3.6 35B Q8(MTP) dengan Strix Halo dan llama.cpp
    Dapat sekitar 40~50t/s dan performanya benar-benar bagus. Saya sudah memakainya langsung dengan forge-code di zsh, dan pada konteks panjang lebih dari 150k kualitasnya menurun dan mulai lupa

  • wsintra2022: Saat membaca komentar di sini, sulit membedakan apakah ini bot yang mencoba menghalangi orang memakai lokal demi kepentingan penyedia AI, atau orang sungguhan yang memang punya pengalaman buruk dengan model AI lokal
    Menjalankan Qwen 3.6 27B 8k quantized di Mac Studio 64GB bukanlah kemampuan serbabisa super kelas frontier, tetapi ya bagus saja. Gratis, privat, dan keajaibannya adalah ia membuat insinyur berpengalaman berubah dari malas menjadi lebih malas lagi
    Saya memakai llama.cpp dan opencode untuk merencanakan serta mengeksekusi perubahan kode, lalu saya rebahan di hammock, mencuci piring, atau melakukan hal lain. Saya masuk lagi lewat tmux dan ssh untuk mengecek. Di titik inilah bagian yang benar-benar mengejutkan

    • epolanski: Di industri “engineering” perangkat lunak, sering ada ninja Leetcode lulusan MIT yang menulis slop React+Tailwind bocor memori dan tidak berguna, jadi baseline-nya memang sangat rendah
  • garethsprice: Di Ada 4000 dengan VRAM 20GB saya memakai OpenCode + OhMyOpenCode + Qwen 3.6 35B-A3B Q_4_KM, dan generasinya sekitar 55tok/s
    Karena OpenCode menambahkan banyak konteks, rasanya lebih lambat daripada angkanya. Pi juga sering disebut, jadi saya akan segera melihatnya
    Saya membuat rencana dengan Opus, membiarkan agen lokal mengikutinya, lalu memverifikasinya dengan Opus. Ini memang belum 100% lokal, tetapi model-model ini makin menjadi bagian dari workflow produksi
    Untuk saat ini, mungkin belum layak kecuali Anda memang suka mengutak-atiknya sebagai hobi dengan menghabiskan waktu dan uang. Model-model ini tidak sebagus Opus atau model frontier lain, tetapi dalam rentang pekerjaan berulang yang makin besar, kualitasnya “cukup bagus”
    Tanpa Rolls Royce pun Anda tetap bisa pergi ke supermarket dengan Corolla bekas. Workflow baru yang terlalu mahal jika memakai LLM frontier jadi mungkin dilakukan. Saya pernah membiarkannya semalaman menjalankan fuzz test seperti pengguna lewat Chrome devtools MCP, bahkan memeriksa screenshot secara multimodal, dan kalau memikirkan biaya Claude+Screenshot rasanya mengejutkan
    Ungkapan “tertinggal 12~18 bulan dari frontier” tampaknya benar. Dalam 12~18 bulan, sepertinya kita bisa menjalankan model lokal setara Opus dengan biaya di bawah 5 ribu dolar, walaupun model frontier saat itu juga pasti sudah lebih maju lagi

  • arjie: Ini bukan lokal dan juga bukan coding interaktif, tetapi saya menjalankan DeepSeek V4 Flash dengan dua RTX Pro 6000 Blackwell
    Kecepatan mentahnya 160tok/s, tetapi ini model penalaran. Penggunaan saya adalah penulisan kode otomatis dan review otomatis untuk sistem lain. Kalau saya menyuruh Pi menulis kode sesekali, hasilnya sangat cepat, tetapi karena kebiasaan saya tetap kebanyakan memakai CC dan Codex

    • akersten: Saya penasaran Anda mendapatkan RTX Pro 6000 Blackwell dari mana
      Semua situs yang saya temukan stoknya habis, atau hanya menjual ke perusahaan, atau terlihat mencurigakan
    • leptons: Saya penasaran apakah Anda pernah mengukur konsumsi daya perangkat ini. Saya memikirkan berapa biaya bulanannya
  • stymaar: Menjalankan Qwen3.6-35B-A3B di Strix Halo 128GB Bosgame M5
    VRAM-nya sebenarnya terlalu besar untuk model ini, tetapi Qwen tidak merilis Qwen3.6 versi 122B yang paling cocok untuk perangkat keras saya. Sebagai gantinya, biaya listriknya nyaris bisa diabaikan. Karena awalnya ini chip laptop, saat idle hampir tidak memakai daya, dan bahkan saat memproses prompt hanya sedikit di atas 120W
    Qwen3.6 ternyata cukup efektif, jadi saya hanya sesekali memakai Claude, sekitar 10% dari seluruh kebutuhan saya. Bahkan dengan paket termurah pun saya tetap berada di bawah kuota. Kecepatannya sekitar 800tps untuk pemrosesan prompt dan 50tps untuk pembuatan token, dan saya tidak memakai speculative decoding

    • manmal: Penasaran apakah kamu juga sudah mencoba versi dense 27B. Untuk coding, itu jauh lebih bagus
  • Kostic: Untuk penggunaan pribadi, saya menghubungkan VSCode dengan llama.cpp lalu menjalankan Qwen 3.6 27B atau Gemma 4 31B, dan itu sudah cukup sampai saya bisa berhenti berlangganan layanan cloud
    Qwen cukup bagus untuk coding, berjalan di GPU pertama dengan konteks q4@176k, sekitar 70~50tok/s dengan MTP. Gemma memakai kedua GPU dengan konteks q8@64k, menangani analisis sentimen dokumen, ringkasan, proofreading, dan terjemahan pada 25tok/s
    Untuk workflow batch memang agak lambat, tetapi masih layak dipakai. Kalau llama.cpp mendukung MTP dalam mode tensor split, sepertinya performanya bisa meningkat lebih jauh
    Di kantor saya tetap memakai frontier LLM karena saya tidak menanggung biayanya, dan tentu saja itu lebih baik. Saya berharap sekitar setahun lagi akan ada model 30B setingkat Sonnet 4.6/Opus 4.5
    Pemrosesan prompt mulai dari 800t/s lalu turun sampai 400t/s. Biasanya prompt awal saya 16k~24k token, jadi butuh 60~90 detik untuk diproses; tidak ideal, tetapi masih bisa diterima

  • jodoherty: Di RTX Pro 6000 Blackwell saya menjalankan Gemma 4 31B lewat Pi dan memakainya untuk semua agentic coding
    Menurut saya ini berguna, dan proyek sampingan ini mirip dengan cara saya menentukan ruang lingkup dan menangani proyek di kantor: https://git.theodohertyfamily.com/wg-wrap.git/tree/README.md https://git.theodohertyfamily.com/wg-wrap.git/tree/CASE_STUD...
    Perlu banyak arsitektur yang hati-hati dan penerapan TDD. Bagian yang sulit ditangani sejak awal lalu dibungkus dengan antarmuka yang sederhana dan mudah ditulis, sehingga risiko teknis bisa dihilangkan
    Untuk beberapa proyek, ini 2~3 kali lebih cepat dibanding menulis langsung sendiri, dan pada proyek yang membosankan atau cakupannya luas, ini membantu mengumpulkan dan mencoba ide dengan cepat sehingga menghemat waktu 5~10 kali
    Setup saya bolak-balik antara vLLM yang memakai nvidia/Gemma-4-31B-IT-NVFP4 dan llama.cpp yang memakai unsloth/gemma-4-31B-it-qat-GGUF dengan MTP. Daya GPU dibatasi di 400W. Konfigurasi llama.cpp saat ini menghasilkan 60~150t/s tergantung tingkat penerimaan MTP draft, dan prefill 1500~4000t/s tergantung panjang dan kedalaman konteks

  • jborak: Saya menjalankan Qwen3.6 27B MTP Q6_K di llama.cpp dengan empat RTX 5070 dan AMD Threadripper 1950X generasi pertama, dan itu berjalan baik sebagai daily driver Pi saya
    Kecepatannya sekitar 50~60tok/s. Saya juga menghubungkannya ke aplikasi lain seperti OpenWeb UI, dan belakangan ini menjadikan gateway LLM Bifrost sebagai titik masuk default untuk akses model
    Saya juga sudah mencoba Qwen3.6 35B A3B, tetapi untuk coding 27B lebih cocok. Karena ini model dense, memang lebih lambat, tetapi kualitasnya tampak jauh lebih baik. 35B A3B sangat cepat, 130~140tok/s tanpa MTP
    Sebenarnya tidak wajib punya empat 5070 untuk menjalankan Qwen3.6 27B; tiga, atau mungkin dua pun bisa. Hanya saja, kalau ingin mempercepat 27B dengan MTP, model draft memerlukan konteksnya sendiri sehingga memakan memori lebih banyak
    Perlu diingat juga bahwa system prompt untuk tool akan dimuat ke model pada setiap percakapan. Saat Pi dinyalakan, awalnya respons sangat cepat, tetapi ketika berinteraksi lewat Hermes CLI, setiap prompt membawa banyak konteks seperti skills, tools, dan lain-lain, lalu itu bertahan sampai akhir percakapan sehingga jadi jauh lebih lambat
    Privasi memang bagus, tetapi saya juga suka karena tidak ada kuota dan tidak perlu khawatir soal pemakaian. Jika masa depan adalah “loop engineering”, dengan model cloud kita hanya akan membakar token dan uang. Sistem saya memakai 200W saat idle dan 350~450W saat beban inferensi tinggi, dan decoding tidak terlalu efisien sehingga GPU ternyata lebih sering menganggur daripada yang dibayangkan. Perkembangan seperti diffusion mungkin bisa mempercepat decoding dan meningkatkan pemanfaatan GPU yang idle

    • zakisaad: Penasaran kenapa untuk setup 4 kartu kamu memilih 5070
      Kesan awal saya, itu terlalu condong ke performa komputasi dan VRAM-nya kurang, jadi bagus untuk gamer tetapi kurang cocok untuk menjalankan LLM. Saya juga memakai 5070 di desktop saya
  • cuttysnark: Saya mendapat cukup banyak keberhasilan dengan model lokal melalui menghubungkan beberapa agen ke dalam workflow
    Setiap agen memakai prompt berbeda dan model ollama yang berbeda sesuai perannya. Agen manajer proyek atau schema agent (qwen3:14b) tidak memakai model yang sama dengan coding agent (qwen2.5-coder:7b)
    Di antara tiap tahap ada orchestrator dan tugas Playwright, yang berusaha mengekspos error kepada agen yang membuat blok kode sebelumnya. Hanya blok tanpa error yang maju ke tahap berikutnya
    Peningkatan terbesar adalah menambahkan definisi layanan backend-for-agents sehingga schema agent hanya membuat manifest berbasis tugas lalu menyerahkannya ke agen berikutnya. Singkatnya, workflow didefinisikan agar agen dipecah untuk mengerjakan hal yang sangat spesifik saja, lalu meneruskannya ke tahap berikutnya. Dengan begitu mereka tidak kehilangan pijakan, dan juga tercipta titik bagi manusia untuk ikut campur pada alur yang baru berhasil 25% atau 90%

    • pianopatrick: Sepertinya akan sangat membantu jika ada benchmark dan kompetisi workflow seperti ini, supaya kita tahu apa yang benar-benar bekerja
      Misalnya format seperti, “gunakan hanya GPU konsumen ini, dengan model dan workflow pilihanmu, lalu lihat seberapa baik kamu menyelesaikan benchmark xyz.” Peserta diberi waktu maksimal 1 jam, lalu dinilai berdasarkan persentase jawaban, akurasi, dan total waktu, semacam “The Local AI challenge”
    • sowbug: Penasaran apakah kamu pernah mencoba membuat para agen bersaing satu sama lain
      Misalnya memberi tugas coding yang sama ke dua model atau ke seed berbeda dari model yang sama, lalu reviewer memilih hasil yang lebih baik. Ada pandangan bahwa otak manusia juga bekerja seperti ini, dengan ribuan mini cortical column yang melihat situasi sedikit berbeda lalu melakukan voting mayoritas
  • HappySweeney: Karena punya Optane dan banyak RAM, saya pernah mencoba memakai model yang mendekati model penuh semalaman untuk menulis fungsi dengan kecepatan sekitar 0,7t/s
    Tes saat ini adalah mengganti fungsi Scala menjadi fungsi transpose matriks bit yang menggunakan AVX512. Model cloud bisa menanganinya dengan mudah, tetapi Kimi 2.6 dan GLM 5.1 gagal total

  • etoxin: Belum bisa menggantikannya. Untuk proyek kantor saya memakai openspec, dan supaya bisa meniru perangkat lokal tanpa menghabiskan banyak uang, saya membayar versi hosted dari model lokal populer terbaru
    Sebagian besar model lokal kecil masih belum bisa melakukan tool calling dengan baik, tetapi model yang lebih besar sekarang biasanya sudah lumayan. Satu hal di sisi lokal yang menurut saya belum diperhitungkan adalah bahwa engineer yang produktif biasanya menjalankan beberapa chat CLI sekaligus bersama git worktree. Saya sendiri biasanya membuka 3 worktree dan chat CLI

  • blurbleblurble: Menurut saya, batas saat ini bukan pada modelnya sendiri, melainkan pada kegunaan harness pengganti yang anehnya tidak punya fitur seperti manajemen antrean, interupsi, subagen, dan tujuan

    • coder543: Sangat setuju. Menjengkelkan juga bahwa OpenCode tidak benar-benar berusaha mendukung LLM lokal dengan baik
      Sebenarnya OpenCode bisa dijalankan, tetapi konfigurasinya sangat manual dan kaku. Saya membuat skrip yang otomatis mengubah konfigurasi llama-server menjadi konfigurasi OpenCode, dan itu membantu, tetapi masih jauh dari ideal
      Di waktu luang saya sempat serius mempertimbangkan membuat harness coding lain. Saya punya beberapa ide untuk membuatnya lebih baik
    • horsawlarway: Pi lumayan bagus
      Saya sudah mencoba agen CLI Claude, Cursor, Pi, beberapa harness kustom buatan sendiri, sampai gastown, dan Pi itu sudah cukup. Ia mengerjakan hal yang diperlukan, tool bawaannya lumayan, terintegrasi dengan baik dengan tool lain, dan membuat saya tidak perlu terlalu memikirkannya
      Kalau Anda bisa menjalankan model sekitar 30B dengan kecepatan yang layak, banyak orang akan cukup terkejut dengan Pi. Dengan menambahkan ekstensi seperti https://pi.dev/packages/pi-mcp-adapter?name=mcp dan https://pi.dev/packages/pi-web-access?name=search, Anda juga mendapat akses MCP untuk tool web, pencarian perplexity, https://browsermcp.io/ untuk kontrol Chrome, serta https://github.com/mozilla/firefox-devtools-mcp untuk Firefox
      Memang tidak sebaik model papan atas yang disubsidi, tetapi gratis dan tetap kompeten. Secara pribadi saya juga sangat menikmati https://pi.dev/docs/latest/sdk, sementara penyedia lain mengenakan biaya ribuan dolar per bulan untuk akses API seperti ini
    • Insanity: Saya sudah mendengar hal-hal baik tentang pi.dev, tetapi belum sempat mencobanya. Mungkin itu bisa mengatasi sebagian fitur yang tadi disebut hilang
  • _bobm: Saat orang mengatakan model Claude/GPT, kita perlu memikirkan apa sebenarnya “model” itu
    Bayangkan saja bagaimana GPT bisa mengirim bagian pemikiran satu per satu, lalu menambahkan ringkasan header Markdown pada blok pemikiran itu sendiri. Jika Anda mengamati endpoint API dan perilaku outputnya, apa yang disebut model SOTA itu tidak sesederhana kelihatannya, dan dari sisi infrastruktur sama sekali bukan pembanding yang setara untuk model lokal
    Operasi pada skala ini melibatkan orkestrasi yang sangat besar, dan batasan-batasannya menghasilkan inovasi yang tidak dibicarakan. Saya tidak bilang mustahil untuk dikejar, tetapi menyajikan model lokal dengan llama atau vLLM itu baru level alfabet A, B, C
    Menurut saya, yang benar-benar dibutuhkan adalah mereplikasi orkestrasi yang tadi saya singgung. “Model” SOTA bukan satu model tunggal, melainkan orkestrasi mendalam dari banyak model yang bekerja bersama. Karena itu, model tunggal tidak akan bisa menyamai sampai ia mereplikasi orkestrasi tersebut dalam pelatihan dan arsitekturnya
    Saya rasa satu model di dalam susunan orkestrasi yang disajikan ke konsumen umum itu sendiri tidak akan jauh lebih unggul daripada Qwen 3.6. Kalau sudut pandangnya diubah, barulah terlihat skala “keajaiban” itu

    • XCSme: Saya tidak paham mengapa Anda menganggap model SOTA adalah orkestrasi mendalam dari banyak model
      Saya juga ingin melihat contoh yang lebih konkret tentang GPT mengirim bagian pemikiran bersama ringkasan header Markdown
  • cheekygeeky: Developer software kami adalah orang paling pintar yang pernah saya temui, dan dia memakai OpenCode dan Tmux bersama model open source
    Untuk coding dia paling suka DeepSeek dan menyebutnya “cukup bagus”. Dijalankan di i9, RAM 128GB, dan dua 3090. https://www.msn.com/en-us/news/technology/china-s-open-deeps...

  • pianopatrick: Rasanya akan membantu kalau ada benchmark dan kompetisi untuk alur kerja seperti ini, supaya kita tahu apa yang benar-benar bekerja
    Misalnya format seperti, “dengan hanya GPU konsumen ini, seberapa baik Anda bisa menyelesaikan benchmark xyz dengan model dan workflow pilihan Anda.” Saya ingin melihat kompetisi seperti “The Local AI challenge”, peserta diberi waktu maksimal 1 jam, lalu dinilai berdasarkan rasio jawaban, tingkat kebenaran, dan waktu penyelesaian

  • bravetraveler: Saya memakainya hampir sepenuhnya secara “alami”, dan semua penggunaan LLM saya yang sedikit pun semuanya lokal
    Pada sistem Strix 128GB, varian Qwen atau Gemma yang lebih jarang bisa menghasilkan 50~80tok/s. Saya tidak berniat berlangganan Anthropic/OpenAI dan, bahkan kalau ini adalah model lokal terakhir, saya tetap tidak membutuhkannya. Penggunaan tool di dalam model menutupi kekhawatiran soal kemutakhiran

  • GodelNumbering: Sebagai orang yang berbicara dengan LLM sepanjang hari, menurut saya kombinasi model frontier open source + harness yang bagus sudah cukup saat ini
    Untuk deployment lokal, kita masih perlu satu atau dua generasi hardware lagi sebelum bisa benar-benar pindah penuh. Namun, karena perusahaan hardware sangat memprioritaskan segmen data center, waktunya mungkin tidak akan datang secepat itu

  • milchek: Pernah mencoba di MacBook Pro 36GB, tetapi tidak terlalu berhasil begitu melampaui tugas yang sangat dasar
    Bahkan dengan model kecil, konteks cepat habis dan kecepatannya lambat. Untuk mendapatkan performa yang lumayan, tampaknya perlu memori 128GB, dan biaya hardware naik banyak
    Pada akhirnya ini soal memilih berlangganan model frontier atau menanam uang itu ke perangkat. Tentu saja, kalau privasi penting, hampir tidak ada pilihan selain mengeluarkan uang untuk perangkat kelas atas

  • acc_297: Penasaran apakah akan membantu jika RLHF diterapkan secara rutin ke model ukuran menengah pada setiap prompt untuk fine-tuning sesuai kebiasaan penggunaan pribadi
    Saya tidak tahu apakah fine-tuning manual model akan merusaknya atau justru memperbaikinya. Kalau memberi umpan balik dengan tekun, akan bagus jika bisa mengurangi kebiasaan model umum seperti sanjungan berlebihan, bertele-tele, atau kecenderungan menjelaskan dengan analogi yang mengganggu, tetapi saya tidak yakin apakah umpan balik prompt dari satu orang saja cukup
    Saya juga mendengar bahwa agen internal perusahaan yang di-fine-tune dengan dokumen internal kadang berperilaku aneh dan belum tentu lebih berguna daripada model standar. Akan bagus kalau semua respons agen bisa diedit, lalu di-fine-tune berdasarkan perbedaan antara versi asli dan versi edit
    Secara pribadi saya akan banyak menghapus kata sifat dan memurnikannya menjadi jawaban inti, tetapi melihat pekerjaan peneliti alignment seperti Owain Evans, saya khawatir penyesuaian seperti ini justru bisa mendorongnya ke kecenderungan yang sulit diprediksi

    • htrp: Cursor melakukan hal seperti itu. Sepertinya mereka memakai Fireworks sebagai penyedia: https://cursor.com/blog/real-time-rl-for-composer
    • rolisz: Saya ingin mencoba hal serupa pada agen OpenClaw
      Seingat saya pekerjaan Owain Evans itu SFT. Di Twitter ada yang bilang RL kurang rentan terhadap fenomena yang dia tunjukkan, jadi saya ingin mencobanya sendiri
  • heisenbit: Perlu pekerjaan setup, tetapi saya banyak belajar dalam prosesnya
    Di 48GB M4 MBP saya terutama memakai qwen/qwen3.6-35b-a3b mlx, dan nyaris hanya tersisa ruang yang cukup untuk Docker dev-container dan tugas dasar. Saya menjalankannya dengan LM Studio dan memakainya di VSCode
    Mengubah system prompt untuk memperbaiki integrasi tool membuat perbedaan besar. Sebelumnya, alih-alih menerapkan perubahan, model sering meregenerasi kode sehingga lebih sering merusak daripada membantu
    Untuk menghindari kebisingan dan panas, saya hampir selalu memakai mode daya rendah meski sedang tersambung listrik. Pada performa maksimum, kecepatannya kira-kira dua kali lipat, tetapi konsumsi dayanya lebih dari dua kali lipat
    Hal yang bisa dilakukan paling banter restrukturisasi sederhana pada halaman, dan pemisahan Pinia store gagal. GPT-5.4 menangani tugas ini tanpa masalah. Saya rasa performanya bisa naik lagi jika panduan penggunaan tool dan tool pendukung di sekitarnya disetel lebih lanjut

  • nfrankel: Sudah mencoba, dan secara teori memang bekerja: https://blog.frankel.ch/tokensparsamkeit-coding-assistants/#...
    Hasilnya bervariasi tergantung model, dan pada akhirnya komputerlah yang menjadi batasnya. Perangkat saya sayangnya tidak sanggup

  • K0balt: Saya mendapat hasil yang cukup bagus dengan qwen 3.6 27b dense
    Tergantung tugasnya, kadang setara dengan Claude Haiku 4.5, mungkin bahkan sesekali sekelas Sonnet

    • kadoban: Penasaran tool apa yang dipakai untuk menjalankan pekerjaannya
    • kandros: Untuk tugas coding, saya lebih baik bertanya ke tukang daging daripada ke Haiku
  • jderekw: Untuk perlengkapan harian saya memakai AMD Lemonade
    Saya mulai dengan Ollama lalu pindah ke LMStudio, dan sekarang menstandarkan ke AMD Lemonade karena membantu memantau cRAM, CPU, GPU, dan gRAM. Berkat fitur multi-model Lemonade, stack LLM, speech-to-text, NPU, dan image generation bisa dijalankan dengan mudah
    Platform ini juga berjalan di chipset Nvidia, Apple, Intel, dan AMD

  • redox99: Model yang bisa dijalankan di rumah seperti Qwen 35B sama sekali tidak mendekati Opus atau GPT 5.5
    Model terbuka yang mendekati level itu ada di kisaran 1T parameter, jadi lupakan menjalankannya di rumah. Ini mirip mengendarai rongsokan tua; mungkin ada banyak orang yang akan meyakinkan Anda bahwa itu cukup baik untuk pergi dari A ke B, tetapi sebenarnya tidak
    Kecuali Anda benar-benar membutuhkan privasi, melakukannya untuk bersenang-senang, atau punya kasus khusus seperti di pesawat, tidak ada alasan yang logis. Kalau bahkan $20 untuk Codex yang sangat disubsidi pun tidak bisa dikeluarkan, lebih baik pakai API model Tiongkok, yang jauh mengungguli model-model kecil ini

    • pbasista: Saya penasaran penilaian bahwa “model yang bisa dijalankan di rumah seperti Qwen 35B sama sekali tidak mendekati Opus atau GPT 5.5” didasarkan pada fakta objektif atau benchmark apa
    • xgulfie: Anda tidak perlu Ferrari untuk berangkat kerja
  • sj_tech: Di Mac Mini 128GB saya memakai Qwen 3.6 35B A3B untuk agentic coding lewat GitHub Copilot Extension for VSCode
    Untuk ukuran modelnya cukup bagus, tetapi saya melihatnya masuk loop ketika masalahnya terlalu besar. Cocok dipakai untuk menghemat waktu dengan menyuruhnya mengerjakan hal-hal yang memang sudah Anda tahu caranya

  • julianlam: Di Framework 13 dengan memori 32GB saya menjalankan Qwen 3.6 35B-A3B dengan llama.cpp dan mendapat 15tok/s
    Model itu mengeluarkan kode dan teks lebih cepat daripada kecepatan saya membacanya

  • moezd: Belum untuk saat ini. Tanpa gaming Apple murni atau GPU yang lumayan, meski RAM dan thread banyak, paling hanya dapat sekitar 30~50tok/s, dan itu pun dengan thinking dimatikan
    Tanpa optimasi seperti ini, model akan melahap MCP, skills, dan penjelasan agen sesukanya, dan Anda akan seperti menonton cat mengering sebelum melihat token output pertama
    Menyajikan model lokal mengharuskan penghematan semua token di context window, dan ini benar-benar berlawanan dengan arah yang sedang didorong Claude/GPT/Copilot di industri

    • amarshall: thinking tidak mengubah kecepatan output. Kecepatan output median model Anthropic kira-kira 40~60t/s
  • mitchell_h: Sudah mencoba, tetapi context window-nya tidak cukup besar

    • coder543: Qwen3.6-27B mendukung context window 1 juta token
      Tentu saja, Anda perlu hardware yang bisa menjalankan context window sebesar itu, dan di DGX Spark saya, model q4_k_xl dengan seluruh f16 KV cache membutuhkan sekitar 100GB memori
    • lysace: Hasil saya juga mirip. RTX 4070 saya hanya 12GB, jadi saya penasaran apakah 24/32GB benar-benar meningkatkan keadaan hingga cukup berguna
    • deadbabe: Cukup beri prompt yang lebih langsung daripada melemparkannya sebagai pertanyaan terbuka
  • drnick1: Penasaran apa model coding terbaik saat ini yang bisa dijalankan di GPU konsumen kelas atas
    Dengan asumsi punya RTX 3090/4090, saya juga penasaran stack apa yang direkomendasikan. Mungkin kombinasi seperti Llama.cpp + OpenCode?

  • bijowo1676: Menarik membayangkan setup di mana model frontier yang mahal dipakai untuk menulis dan memperbarui dokumen Markdown seperti spesifikasi aplikasi, kebutuhan produk, dan arsitektur, lalu model yang lebih murah atau lokal dipakai untuk mengimplementasikan spesifikasi itu
    Markdown memadatkan informasi lebih baik daripada ratusan file sumber sehingga lebih mudah masuk ke context window, tetapi untuk merapikan bagian-bagian yang kasar tetap perlu pass kedua dan ketiga. Penasaran apakah ada yang pernah mencoba cara seperti ini

  • grmnygrmny2: Saya punya keberatan etis terhadap penggunaan produk OpenAI atau Anthropic, jadi sempat enggan mengadopsi LLM sama sekali
    Model lokal menyelesaikan sebagian besar keberatan moral itu, jadi selama sekitar sebulan saya memakainya untuk pekerjaan dan proyek pribadi. Perangkat keras yang saya punya adalah Mac 32GB dan PC gaming 3080 10GB, jadi batasnya kira-kira hanya sampai berbagai kuantisasi Qwen3.6-35B-A3B, tetapi itu sudah cukup
    Kinerjanya sekitar 200~400 PP dan 20~30 TG, dan perlu sedikit waktu untuk belajar cara memakainya dengan baik. Beberapa hal memang perlu diawasi atau diarahkan, tetapi tetap cukup berguna
    Saya belum pernah memakai CC jadi tidak bisa membandingkan, tetapi dari embedded C++ sampai Vue, model ini berperan baik sebagai asisten atau pair programmer. Akan menyenangkan kalau bisa menjalankan 27B, dan sesekali ada momen ketika model ini seperti hampir memahami sesuatu lalu ternyata tidak, tetapi itu jarang
    Untuk banyak tugas, ini sangat menghemat waktu, dan cukup bagus dalam menggali bug lalu memperbaikinya hanya dengan instruksi yang cukup samar. Untuk harness saya memakai Pi