- Bahkan pada M4 MacBook Pro 24GB, konfigurasi model lokal untuk pekerjaan dasar, riset, dan perencanaan tetap memungkinkan
- Qwen 3.5-9B Q4 memenuhi sekitar 40 token/detik, mode berpikir, penggunaan alat, dan konteks 128K
- Model ini tidak mampu menyelesaikan masalah kompleks secara mandiri dalam waktu lama seperti model papan atas, sehingga memerlukan instruksi bertahap
- Model ini berhasil memperbaiki peringatan Elixir Credo, tetapi gagal menyelesaikan konflik rebase tanpa mengubah file
- Keunggulan model lokal adalah bisa dipakai offline dan tanpa langganan, tetapi ada trade-off besar pada performa dan pengaturan
Lingkungan menjalankan model lokal dan kriteria pemilihan
- Penulis bereksperimen dengan pengaturan menjalankan model lokal di lingkungan M4 MacBook Pro dengan memori 24GB, dan meskipun hasilnya berbeda dari keluaran model papan atas (SOTA), tetap dimungkinkan membuat konfigurasi yang bisa menangani pekerjaan dasar, riset, dan perencanaan tanpa koneksi internet
- Alat untuk menjalankan secara lokal mencakup Ollama, llama.cpp, dan LM Studio, masing-masing dengan batasan dan model yang tersedia berbeda-beda
- Dalam memilih model, model tersebut harus muat di memori sambil tetap menyisakan ruang untuk menjalankan aplikasi Electron umum, serta membutuhkan jendela konteks minimal 64K, idealnya 128K atau lebih
- Qwen 3.6 Q3, GPT-OSS 20B, dan Devstral Small 24B yang baru dicoba memang muat di memori tetapi sulit dipakai secara nyata, sedangkan Gemma 4B berjalan baik tetapi mengalami kesulitan dalam penggunaan alat
- Item pengaturan beragam, mulai dari nilai yang sudah umum seperti temperature hingga opsi khusus seperti K Cache Quantization Type, dan nilai yang sesuai bisa berbeda tergantung apakah mode berpikir (thinking) diaktifkan atau tidak
Konfigurasi kuantisasi 4-bit Qwen 3.5-9B
- qwen3.5-9b@q4_k_s adalah model terbaik saat dijalankan di LM Studio karena secara bersamaan memenuhi sekitar 40 token/detik, thinking aktif, penggunaan alat yang berhasil, dan jendela konteks 128K
- Dibanding model papan atas, model ini lebih mudah terdistraksi, kadang masuk ke loop, dan sesekali salah menafsirkan permintaan, tetapi untuk model yang masih bisa berjalan di MacBook Pro 24GB sambil menyisakan ruang kerja lain, performanya cukup baik
- Pengaturan yang direkomendasikan untuk mode berpikir dan pekerjaan coding adalah sebagai berikut
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
- Untuk mengaktifkan thinking, setelah memilih model di LM Studio, buka configuration lalu tambahkan nilai berikut ke Prompt Template di bagian bawah tab Inference
{%- set enable_thinking = true %}
- Model ini digunakan di pi dan OpenCode; pi terasa lebih responsif, tetapi terlepas dari kelebihan bisa membangun dan menyesuaikan harness sendiri, pi kurang memiliki nilai default yang masuk akal
- Bisa saja waktu yang dihabiskan untuk menyesuaikan pengaturan pi justru lebih banyak daripada waktu yang dipakai untuk proyek sebenarnya
Pengaturan pi
- Di
~/.pi/agent/models.json, endpoint kompatibel OpenAI milik LM Studio dan model qwen3.5-9b@q4_k_s didaftarkan
{
"providers": {
"lmstudio": {
"baseUrl": "http://localhost:1234/v1",
"api": "openai-completions",
"apiKey": "lm-studio",
"models": [
{
"id": "qwen3.5-9b@q4_k_s",
"reasoning": true,
"compat": { "thinkingFormat": "qwen-chat-template" }
}
]
}
}
}
- Untuk menyembunyikan blok thinking yang mudah terdistraksi, tambahkan
"hideThinkingBlock": true ke ~/.pi/agent/settings.json
Pengaturan OpenCode
- Di
~/.config/opencode/opencode.json, LM Studio didaftarkan sebagai provider lokal yang kompatibel dengan OpenAI, lalu diatur penggunaan alat, panjang konteks 131072, dan token maksimum 32768
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"lmstudio": {
"npm": "@ai-sdk/openai-compatible",
"name": "LM Studio (local)",
"options": {
"baseURL": "http://127.0.0.1:1234/v1"
},
"models": {
"qwen3.5-9b@q4_k_s": {
"name": "Qwen 3.5 9B Q4_K_S",
"tools": true,
"context_length": 131072,
"max_tokens": 32768
}
}
}
},
"model": "lmstudio/qwen3.5-9b@q4_k_s"
}
Perbedaan dengan model papan atas
- Model seperti Qwen 3.5 9B Q4 belum berada pada tingkat yang bisa menyelesaikan masalah kompleks secara mandiri dalam waktu lama seperti model papan atas
- Pendekatan meminta model membuat seluruh aplikasi sekaligus tidak cocok, dan hasilnya bisa saja nihil sementara laptop hanya menjadi panas
- Pendekatan yang lebih cocok adalah alur kerja interaktif dengan komunikasi yang jelas per langkah dan banyak arahan
- Saat memakai model lokal, pengguna harus mengambil lebih banyak peran dalam berpikir dan merencanakan sendiri serta memberi instruksi yang lebih spesifik, tetapi model ini tetap berguna sebagai asisten riset, rubber duck, dan asisten yang bisa segera mengingat detail bahasa pemrograman serta pemanggilan command line
- Ini memang bukan peningkatan produktivitas 10x seperti yang dipromosikan perusahaan AI besar, tetapi tetap memberi bantuan yang bermakna dan pengalaman penggunaan yang menarik
Tugas yang berhasil dan tugas yang gagal
-
Memperbaiki peringatan Elixir Credo
- Setelah linter Elixir
credo dinaikkan ke versi terbaru, muncul peringatan di kode, dan Qwen diminta menjalankan mix credo --strict untuk menyarankan cara memperbaikinya tanpa melakukan edit
- Qwen menemukan masalah penggunaan
length/1 untuk memeriksa apakah list tidak kosong di empat file test, lalu menyarankan memakai list != [] alih-alih length(list) > 0
- Setelah diminta melakukan edit, Qwen menyelesaikan empat edit paralel dengan rapi
- Tugas ini memang sederhana dan bisa dilakukan sendiri sambil bolak-balik antara terminal dan editor, tetapi model ini memberi peran pendamping yang nyaman
-
Menangani konflik rebase pada PR Dependabot
- Setelah pembaruan dependensi, muncul konflik git di PR Dependabot, Dependabot menolak melakukan rebase, sehingga penulis mengunduhnya sendiri, melakukan rebase, lalu meminta Qwen memeriksanya
- Konfliknya sederhana, cukup memilih versi yang lebih baru untuk tiap dependensi, dan Qwen merekomendasikan pilihan mempertahankan
sentry di 13.0.1 dan tailwind di 0.4.1
- Namun saat diminta menerapkan perubahan sebenarnya, Qwen mencoba menjalankan
git add mix.lock && git rebase --continue tanpa mengubah file, sehingga penanda konflik masih tertinggal
- Qwen juga tidak mengenali bahwa
git rebase --continue akan membuka editor, dan OpenCode berhenti; fenomena ini mungkin saja kejadian satu kali
Kelebihan dan keterbatasan model lokal
- Model lokal memiliki trade-off besar, tetapi kelebihannya adalah tetap bisa dipakai bekerja di pesawat tanpa koneksi internet
- Jika menganggap komputer memang akan dibeli juga, biayanya terbatas pada listrik yang dipakai, dan tidak memerlukan langganan
- Pelatihan model tetap memiliki biaya lingkungan yang besar, tetapi perusahaan model terbuka masih jauh dari kelompok dengan dampak lingkungan tertinggi, dan memakai perangkat keras pribadi mengurangi ketergantungan pada data center
- Ada kesenangan tersendiri dalam melakukan penyetelan dan eksperimen langsung
- LLM sudah membawa dampak besar dan juga memiliki banyak sisi negatif, tetapi tampaknya akan tetap bertahan, dan bereksperimen dengan model lokal terasa seperti cara berinteraksi dengan teknologi ini dengan cara yang lebih berkelanjutan dan positif
1 komentar
Pendapat Hacker News
Menjalankan LLM secara lokal itu menyenangkan dan kuat, tetapi untuk benar-benar menyelesaikan pekerjaan, rasanya cukup merepotkan
Harus merencanakan, membuat spesifikasi, dan menyiapkan semuanya terlebih dahulu, sementara model besar seperti OpenAI atau Claude cenderung langsung paham hanya dengan beberapa kalimat
Kalau sudah melakukan pekerjaan serius dengan model besar, ya tinggal terus pakai saja
Namun untuk pekerjaan vision/OCR, saya melihatnya berbeda. Model bobot terbuka kecil dan menengah juga sudah mirip level mutakhir, dan biaya token prefill pada pekerjaan batch besar cukup terasa sayang
Selain itu, orang juga sering lupa bahwa bahkan untuk memakai LLM kecil seperti layanan pribadi yang stabil, kita tetap harus menyediakan 16~24GB RAM/VRAM khusus dan membiarkannya terus berjalan
Masalah utamanya pada akhirnya tetap uang
Menurut saya ini sudah hampir sampai level yang benar-benar berguna
Gemma 4 31B terasa seperti baseline baru untuk model lokal. Jelas masih di bawah model frontier, tetapi dibanding model lokal yang pernah saya jalankan sejauh ini, termasuk GPT OSS 120B atau Nemotron Super 120B, rasanya jauh lebih sedikit seperti eksperimen sains
Di M5 Max 128GB RAM, kalau memakai jendela konteks penuh 256K, penggunaan RAM melonjak hingga sekitar 70GB, dan overhead sistem terlihat sekitar 14GB
Mesin 64GB Panther Lake dengan Arc B390 penuh, atau mesin 48GB Snapdragon X2 Elite, tampaknya bisa menjalankannya dengan jendela konteks 128K~256K, dan di 32GB mungkin masih bisa dipaksakan dengan jendela konteks 32K
Baru tahun lalu, melihat performa seperti ini pada konfigurasi kelas atas yang nyaris mainstream terasa seperti mimpi kosong
Pada akhirnya, patokannya adalah “apa yang bisa saya percayakan secara stabil ke model ini?” Opus jelas tahu lebih banyak dan bisa mengerjakan tugas yang lebih rumit, tetapi kalau konteksnya dimasukkan dengan baik, Gemma mengejutkan bagusnya
Perbedaan cakupan tugas yang saya percaya bisa diberikan ke dua model itu ternyata lebih kecil dari yang saya kira. Di alat pribadi dan beberapa proyek, hasilnya belakangan sangat bagus, dan ini model lokal pertama yang bisa saya percaya untuk mengimplementasikan fitur dalam mode agen pada proyek yang tidak sepele
https://thot-experiment.github.io/gradient-gemma4-31b/
Ini alat yang relatif kompleks yang hampir seluruhnya dibuat Gemma 4 di dalam OpenCode, dan selama beberapa jam intervensi manual hanya sekitar 4 kali
Q6_K_XL, konteks 128K @ q8, baca sekitar 800tok/s, tulis sekitar 16tok/s
Saya sedang menunggu turboquant dan MTP di llama.cpp, dan kalau rumor itu benar, sepertinya bisa sampai 256K dan 25~30tok/s
Tepat setelah rilis saya juga menulis artikel terkait karena performa benchmark-nya mengesankan [0]. Namun setelah dijalankan di lingkungan agentic coding dengan konteks yang lebih panjang, posisinya di papan peringkat agak turun
[0] https://gertlabs.com/blog/gemma-4-economics
Alurnya adalah membuat rencana dengan model terbaru lalu mengeksekusinya dengan model kecil. Kalau perencanaannya rapi sehingga tidak menyisakan ambiguitas yang harus ditafsirkan model kecil, hasilnya bekerja baik
Rasanya saya berharap sudah melihat tulisan ini sebelum menghabiskan akhir pekan dan sampai pada kesimpulan yang sama
Di laptop yang sama, saya melakukan tes buatan: menyuruhnya memperbaiki sekitar 50 error lint di repositori C++ vibe coding kecil. Saya berharap ia bisa menangani banyak tugas kecil tanpa terlalu sering macet
GPT OSS 20B masih bisa dipakai, tetapi lambat, sering menambahkan kalimat yang tidak perlu atau mengulang, dan kerap membuat kesalahan dengan mengklaim sudah memperbaiki sesuatu tanpa benar-benar mengubah kodenya
Qwen 3.5 9B yang dipakai bersama Opencode jauh lebih cepat, dan bahkan saat melalui kompresi ia bisa menangani sebagian besar peringatan lint tanpa macet serta memperbaiki semuanya dengan benar
Saya juga mencoba kuantisasi MLX 4-bit untuk Qwen 3.5 9B, tetapi akhirnya crash karena kehabisan memori, dan setelah diganti ke GGUF yang dijalankan lewat llama.cpp, ia berjalan tanpa crash
Ini sama sekali tidak bisa dibandingkan dengan model frontier. Jauh lebih lambat, informasi dasarnya pun salah, dan tidak mampu menangani tugas yang tidak sepele dalam sekali jalan
Ketika saya minta merangkum arsitektur proyek, ia malah mengklaim memakai library yang tidak ada di mana pun dalam repositori. Mungkin tiap orang berbeda, tetapi tetap ada sisi yang berguna, dan saya berharap seiring waktu lingkungan LLM lokal di perangkat keras yang masuk akal bisa menjadi jauh lebih baik
LLM lokal itu hebat, tetapi kalau terlalu banyak membaca tulisan tentangnya, kita bisa mendapat kesan seolah sudah hampir menyamai Opus 4.7
Di HN ada kelompok yang sangat kecil, sangat berisik, dan sangat antusias yang sangat melebih-lebihkan kemampuan LLM lokal
Di antara model seukuran itu, ini termasuk yang tercepat yang pernah saya jalankan di GPU lokal, walau saya hanya mengujinya di kartu Nvidia
Belakangan saya sadar itu MoE dan parameter aktifnya cuma 3.6B, jadi banyak hal jadi masuk akal
Berguna untuk melihat secara realistis apa yang bisa dilakukan model lokal, terutama model kecil seperti 9B yang dipakai penulis
Model 9B ada di kisaran level Sonnet 3.6, jadi bisa untuk autocomplete dan fungsi kecil, tetapi ketika harus memahami masalah besar, ia mulai kehilangan alur
Meski begitu tetap menarik dan menyenangkan untuk dimainkan. Saya sendiri banyak membuat agent harness lokal terutama untuk seru-seruan
Proyek saya saat ini adalah agen tanpa instalasi: https://gemma-agent-explainer.nicklothian.com/
Python, SQL, dan React semuanya berjalan sepenuhnya di dalam browser. Untuk pengalaman terbaik saya merekomendasikan Gemma E4B
Masih aktif dikembangkan, dan saat ini butuh Chrome karena dukungan HTML5 Filesystem API dan LiteRT. Namun kemungkinan besar bisa dibuat berjalan juga di sebagian besar browser berbasis Chromium
Perbedaannya dengan kebanyakan agen lain adalah sifatnya tanpa instalasi. Model dijalankan di browser dengan LiteRT/LiteLLM, dan performanya lebih baik daripada Transformers.js. Dengan Filesystem API, akses baca ke direktori sandbox juga bisa diberikan secara opsional
Sistem ini mendokumentasikan dirinya sendiri, jadi dari panel bantuan real-time Anda bisa menanyakan hal seperti “bagaimana system prompt digunakan” dan ia dapat menjawab dengan mengakses source code-nya sendiri
Tekan “Tour” untuk melihat semuanya, dan minggu depan rencananya akan dirilis sebagai open source
Hanya saja benchmark yang dipakai orang untuk menilai model terlalu sering berubah, jadi sulit mencari perbandingan yang bagus. Sebagai referensi, Sonnet 3.6 keluar sekitar 1 tahun setelah GPT-3.5
Kalau dilihat kritis, memang benar model-model ini belum setara dengan level terbaik mutakhir untuk tugas coding kompleks
Tetapi cukup banyak pekerjaan kantoran itu berupa pengolahan Excel, memindahkan file, menerjemahkan dokumen hukum yang kaku, membuat draft email, atau pekerjaan remeh PPT
Untuk tugas-tugas seperti ini, model 30~35B ke atas sudah cukup, dan ada keuntungan tambahan karena data perusahaan bisa tetap privat
Yang dibayangkan orang ketika membahas model lokal adalah model yang keluar April tahun ini. Targetnya adalah Qwen 3.6 27B dan, kalau GPU lemah, qwen 35b a3b
Model-model ini layak dibandingkan secara serius dengan model mutakhir
Contoh terkenalnya, insiden London Whale di JPMorgan menyebabkan kerugian 6 miliar dolar karena kesalahan Excel
Saya sedang mempertimbangkan MacBook M5 Pro 18/20-core 64GB RAM, tetapi sangat sulit menemukan benchmark model di dunia nyata
Misalnya, saya ingin ada yang memberi tahu kira-kira berapa token per detik untuk kuantisasi Q4 dan Q6 dari Qwen 3.6 35B/A3B
Inferensi lokal sekarang cenderung mengarah ke model MoE, dan cukup banyak yang angka token per detiknya lumayan tetapi waktu sampai token pertamanya mengerikan
Saya menulis pengaturan acak yang saya pakai di Bluesky untuk M2 Studio 32GB, dan ingin mendapat masukan
Saya tipe orang yang kurang bisa kalau tidak melihat langsung, jadi saya bagikan dengan harapan ada yang membantu
https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...
Di M4 Pro 48GB saya menjalankan model kuantisasi qwen 3.6 9b, dan rasanya baru nyaris cukup berguna untuk pengembangan dasar berbasis pi.dev/cc
Untuk benar-benar melakukan pekerjaan yang berarti, tampaknya desktop 128GB adalah sweet spot. Hanya saja sekarang sulit mendapatkan mesin seperti itu
Menjalankan secara lokal memang menyenangkan, tetapi jangan lupa waktu kita juga tidak gratis
Untuk proyek pribadi, saya makin beralih ke OpenRouter, dan bahkan kalau memakai model qwen terbesar dengan serius pun biayanya kurang dari 2~3 dolar per hari
Dengan M4 Pro 48GB, Anda sebenarnya bisa menjalankan model yang lebih besar, jadi kalau kecerdasan model adalah kunci kegunaan, mungkin lebih masuk akal memakai model yang lebih besar
Saya setuju bahwa 9B dense memang kurang bagus
Saya juga memakai MacBook Pro M5 spesifikasi tertinggi terbaru dan sudah mencoba model lokal, tetapi levelnya nyaris hanya sekadar berjalan
Di 4090 24GB saya menjalankan qwen3.6:27B dengan konteks sekitar 128K memakai optimisasi memori activation terbaru turboquant/rotorquant
Sangat saya sarankan naik ke model sekelas itu. Kombinasi q4_xl+rotorquant cukup bagus
Ada juga kode referensi yang bisa dilempar ke agen
https://github.com/rapatel0/rq-models
Menurut saya lebih baik menghabiskan ribuan dolar untuk Mac daripada untuk langganan API
Model lokal memungkinkan bekerja kapan saja dan di mana saja tanpa khawatir kebocoran privasi