- Membagikan pengaturan praktis untuk menjalankan LLM lokal di M4 MacBook Pro dengan memori 24GB agar bisa melakukan tugas coding dasar, riset, perencanaan, dan lainnya tanpa koneksi internet
- Model yang saat ini bekerja paling baik adalah Qwen 3.5-9B (kuantisasi Q4), dengan dukungan mode thinking, tool use, dan jendela konteks 128K di LM Studio pada kecepatan sekitar 40 token/detik
- Proses setup cukup rumit, mulai dari memilih alat eksekusi, model, hingga opsi konfigurasi seperti Ollama, llama.cpp, dan LM Studio, yang masing-masing punya batasan sendiri
- Meski sulit menyelesaikan masalah kompleks secara mandiri seperti model SOTA, model ini tetap cukup berguna untuk asisten riset atau rubber duck debugging lewat workflow interaktif langkah demi langkah
- Bisa dijalankan hanya dengan biaya listrik tanpa biaya langganan, dan bernilai sebagai cara memanfaatkan AI yang lebih berkelanjutan dengan mengurangi ketergantungan pada big tech, meski ada trade-off besar pada performa dan konfigurasi
Lingkungan menjalankan model lokal dan kriteria pemilihan
- Penulis bereksperimen dengan pengaturan menjalankan model lokal di lingkungan M4 MacBook Pro dengan memori 24GB, dan meski hasilnya berbeda dari keluaran model terbaik (SOTA), tetap memungkinkan membangun konfigurasi yang bisa menangani tugas dasar, riset, dan perencanaan tanpa koneksi internet
- Alat untuk menjalankan model secara lokal meliputi Ollama, llama.cpp, dan LM Studio, dengan batasan dan model yang tersedia berbeda-beda
- Dalam memilih model, model harus muat di memori sambil tetap menyisakan ruang untuk menjalankan aplikasi Electron biasa, serta membutuhkan jendela konteks minimal 64K dan idealnya 128K atau lebih
- Qwen 3.6 Q3, GPT-OSS 20B, dan Devstral Small 24B yang dicoba belakangan memang muat di memori, tetapi sulit dipakai secara praktis, sementara Gemma 4B berjalan baik namun kesulitan dalam penggunaan tool
- Opsi konfigurasi bervariasi dari nilai yang umum dikenal seperti temperature hingga opsi khusus seperti K Cache Quantization Type, dan nilai yang sesuai bisa berubah tergantung apakah mode thinking diaktifkan atau tidak
Konfigurasi Qwen 3.5-9B kuantisasi 4-bit
- qwen3.5-9b@q4_k_s adalah model terbaik saat dijalankan di LM Studio, karena mampu memenuhi kombinasi kecepatan sekitar 40 token/detik, thinking aktif, penggunaan tool yang berhasil, dan jendela konteks 128K
- Dibanding model terbaik, model ini lebih mudah terdistraksi, kadang terjebak dalam loop, dan sesekali salah menafsirkan permintaan, tetapi masih tergolong sangat layak untuk model yang bisa berjalan di MacBook Pro 24GB sambil menyisakan ruang kerja untuk tugas lain
- Pengaturan yang direkomendasikan untuk mode thinking dan pekerjaan coding adalah sebagai berikut
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
- Untuk mengaktifkan thinking, setelah memilih model di LM Studio buka configuration, lalu tambahkan nilai berikut pada Prompt Template di bagian bawah tab Inference
{%- set enable_thinking = true %}
- Model ini digunakan di pi dan OpenCode; pi terasa lebih responsif, tetapi terlepas dari keunggulannya yang memungkinkan membangun dan menyesuaikan harness sendiri, ia kurang memiliki default yang masuk akal
- Bisa jadi Anda malah menghabiskan lebih banyak waktu menyetel pi daripada mengerjakan proyek sebenarnya
Konfigurasi pi
- Di
~/.pi/agent/models.json, endpoint kompatibel OpenAI milik LM Studio dan model qwen3.5-9b@q4_k_s didaftarkan
{
"providers": {
"lmstudio": {
"baseUrl": "http://localhost:1234/v1",
"api": "openai-completions",
"apiKey": "lm-studio",
"models": [
{
"id": "qwen3.5-9b@q4_k_s",
"reasoning": true,
"compat": { "thinkingFormat": "qwen-chat-template" }
}
]
}
}
}
- Untuk menyembunyikan blok thinking yang bertele-tele, tambahkan
"hideThinkingBlock": true ke ~/.pi/agent/settings.json
Konfigurasi OpenCode
- Di
~/.config/opencode/opencode.json, LM Studio didaftarkan sebagai provider lokal yang kompatibel dengan OpenAI, lalu diatur penggunaan tool, panjang konteks 131072, dan maksimum token 32768
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"lmstudio": {
"npm": "@ai-sdk/openai-compatible",
"name": "LM Studio (local)",
"options": {
"baseURL": "http://127.0.0.1:1234/v1"
},
"models": {
"qwen3.5-9b@q4_k_s": {
"name": "Qwen 3.5 9B Q4_K_S",
"tools": true,
"context_length": 131072,
"max_tokens": 32768
}
}
}
},
"model": "lmstudio/qwen3.5-9b@q4_k_s"
}
Perbedaan dengan model terbaik
- Model seperti Qwen 3.5 9B Q4 belum berada di tingkat model terbaik yang mampu menyelesaikan masalah kompleks secara mandiri dalam waktu lama
- Meminta model langsung membuat seluruh aplikasi sekaligus bukan pendekatan yang cocok, dan hasilnya bisa nihil selain laptop yang makin panas
- Pendekatan yang lebih cocok adalah workflow interaktif dengan komunikasi yang jelas langkah demi langkah serta banyak instruksi
- Saat memakai model lokal, pengguna perlu mengambil lebih banyak peran dalam berpikir dan merencanakan sendiri serta memberi arahan yang lebih spesifik, tetapi model ini tetap berguna sebagai asisten riset, rubber duck, dan pembantu yang cepat mengingat detail bahasa pemrograman maupun pemanggilan command line
- Ini bukan peningkatan produktivitas 10x seperti yang dipromosikan perusahaan AI besar, tetapi tetap memberikan bantuan yang bermakna dan pengalaman penggunaan yang menarik
Tugas yang berhasil dan yang gagal
-
Memperbaiki peringatan Elixir Credo
- Setelah menaikkan Elixir linter
credo ke versi terbaru, muncul peringatan pada kode, lalu penulis meminta Qwen menjalankan mix credo --strict dan menyarankan cara memperbaikinya tanpa melakukan edit
- Qwen menemukan masalah penggunaan
length/1 untuk memeriksa apakah list tidak kosong di empat file uji, dan menyarankan memakai list != [] alih-alih length(list) > 0
- Setelah diminta melakukan edit, Qwen menjalankan empat pengeditan paralel dengan rapi
- Tugas ini sebenarnya cukup sederhana untuk dilakukan sendiri sambil berpindah antara terminal dan editor, tetapi tetap membantu sebagai asisten yang praktis
-
Menangani konflik rebase pada PR Dependabot
- Setelah pembaruan dependensi, ada konflik git pada PR Dependabot, dan karena Dependabot menolak rebase, penulis mengunduhnya sendiri, melakukan rebase, lalu meminta Qwen untuk memeriksanya
- Konfliknya sederhana: cukup memilih versi yang lebih baru untuk tiap dependensi, dan Qwen merekomendasikan tetap memakai
sentry 13.0.1 serta tailwind 0.4.1
- Namun saat diminta menerapkan perubahan, Qwen mencoba menjalankan
git add mix.lock && git rebase --continue tanpa mengubah file, sehingga penanda konflik masih tertinggal
- Qwen juga gagal menyadari bahwa
git rebase --continue akan membuka editor, OpenCode pun macet, meski kemungkinan ini hanya kejadian satu kali
Kelebihan dan keterbatasan model lokal
- Model lokal memang memiliki trade-off besar, tetapi punya kelebihan karena tetap bisa dipakai bekerja di pesawat tanpa koneksi internet
- Jika komputer memang akan dibeli juga, biayanya pada dasarnya terbatas pada listrik yang digunakan, tanpa perlu langganan
- Pelatihan model tetap memiliki biaya lingkungan yang besar, tetapi perusahaan model terbuka masih jauh dari kelompok dengan dampak lingkungan tertinggi, dan memakai perangkat keras pribadi mengurangi ketergantungan pada data center
- Ada kesenangan tersendiri dalam mengutak-atik dan bereksperimen langsung
- LLM sudah membawa dampak besar dan juga banyak sisi negatif, tetapi tampaknya akan tetap menjadi teknologi yang bertahan, dan bereksperimen dengan model lokal terasa seperti cara berinteraksi dengan teknologi ini secara lebih berkelanjutan dan positif
1 komentar
Pendapat Hacker News
Menjalankan LLM secara lokal itu menyenangkan dan kuat, tetapi untuk benar-benar menyelesaikan pekerjaan, rasanya cukup merepotkan
Harus merencanakan, membuat spesifikasi, dan menyiapkan semuanya terlebih dahulu, sementara model besar seperti OpenAI atau Claude cenderung langsung paham hanya dengan beberapa kalimat
Kalau sudah melakukan pekerjaan serius dengan model besar, ya tinggal terus pakai saja
Namun untuk pekerjaan vision/OCR, saya melihatnya berbeda. Model bobot terbuka kecil dan menengah juga sudah mirip level mutakhir, dan biaya token prefill pada pekerjaan batch besar cukup terasa sayang
Selain itu, orang juga sering lupa bahwa bahkan untuk memakai LLM kecil seperti layanan pribadi yang stabil, kita tetap harus menyediakan 16~24GB RAM/VRAM khusus dan membiarkannya terus berjalan
Masalah utamanya pada akhirnya tetap uang
Menurut saya ini sudah hampir sampai level yang benar-benar berguna
Gemma 4 31B terasa seperti baseline baru untuk model lokal. Jelas masih di bawah model frontier, tetapi dibanding model lokal yang pernah saya jalankan sejauh ini, termasuk GPT OSS 120B atau Nemotron Super 120B, rasanya jauh lebih sedikit seperti eksperimen sains
Di M5 Max 128GB RAM, kalau memakai jendela konteks penuh 256K, penggunaan RAM melonjak hingga sekitar 70GB, dan overhead sistem terlihat sekitar 14GB
Mesin 64GB Panther Lake dengan Arc B390 penuh, atau mesin 48GB Snapdragon X2 Elite, tampaknya bisa menjalankannya dengan jendela konteks 128K~256K, dan di 32GB mungkin masih bisa dipaksakan dengan jendela konteks 32K
Baru tahun lalu, melihat performa seperti ini pada konfigurasi kelas atas yang nyaris mainstream terasa seperti mimpi kosong
Pada akhirnya, patokannya adalah “apa yang bisa saya percayakan secara stabil ke model ini?” Opus jelas tahu lebih banyak dan bisa mengerjakan tugas yang lebih rumit, tetapi kalau konteksnya dimasukkan dengan baik, Gemma mengejutkan bagusnya
Perbedaan cakupan tugas yang saya percaya bisa diberikan ke dua model itu ternyata lebih kecil dari yang saya kira. Di alat pribadi dan beberapa proyek, hasilnya belakangan sangat bagus, dan ini model lokal pertama yang bisa saya percaya untuk mengimplementasikan fitur dalam mode agen pada proyek yang tidak sepele
https://thot-experiment.github.io/gradient-gemma4-31b/
Ini alat yang relatif kompleks yang hampir seluruhnya dibuat Gemma 4 di dalam OpenCode, dan selama beberapa jam intervensi manual hanya sekitar 4 kali
Q6_K_XL, konteks 128K @ q8, baca sekitar 800tok/s, tulis sekitar 16tok/s
Saya sedang menunggu turboquant dan MTP di llama.cpp, dan kalau rumor itu benar, sepertinya bisa sampai 256K dan 25~30tok/s
Tepat setelah rilis saya juga menulis artikel terkait karena performa benchmark-nya mengesankan [0]. Namun setelah dijalankan di lingkungan agentic coding dengan konteks yang lebih panjang, posisinya di papan peringkat agak turun
[0] https://gertlabs.com/blog/gemma-4-economics
Alurnya adalah membuat rencana dengan model terbaru lalu mengeksekusinya dengan model kecil. Kalau perencanaannya rapi sehingga tidak menyisakan ambiguitas yang harus ditafsirkan model kecil, hasilnya bekerja baik
Rasanya saya berharap sudah melihat tulisan ini sebelum menghabiskan akhir pekan dan sampai pada kesimpulan yang sama
Di laptop yang sama, saya melakukan tes buatan: menyuruhnya memperbaiki sekitar 50 error lint di repositori C++ vibe coding kecil. Saya berharap ia bisa menangani banyak tugas kecil tanpa terlalu sering macet
GPT OSS 20B masih bisa dipakai, tetapi lambat, sering menambahkan kalimat yang tidak perlu atau mengulang, dan kerap membuat kesalahan dengan mengklaim sudah memperbaiki sesuatu tanpa benar-benar mengubah kodenya
Qwen 3.5 9B yang dipakai bersama Opencode jauh lebih cepat, dan bahkan saat melalui kompresi ia bisa menangani sebagian besar peringatan lint tanpa macet serta memperbaiki semuanya dengan benar
Saya juga mencoba kuantisasi MLX 4-bit untuk Qwen 3.5 9B, tetapi akhirnya crash karena kehabisan memori, dan setelah diganti ke GGUF yang dijalankan lewat llama.cpp, ia berjalan tanpa crash
Ini sama sekali tidak bisa dibandingkan dengan model frontier. Jauh lebih lambat, informasi dasarnya pun salah, dan tidak mampu menangani tugas yang tidak sepele dalam sekali jalan
Ketika saya minta merangkum arsitektur proyek, ia malah mengklaim memakai library yang tidak ada di mana pun dalam repositori. Mungkin tiap orang berbeda, tetapi tetap ada sisi yang berguna, dan saya berharap seiring waktu lingkungan LLM lokal di perangkat keras yang masuk akal bisa menjadi jauh lebih baik
LLM lokal itu hebat, tetapi kalau terlalu banyak membaca tulisan tentangnya, kita bisa mendapat kesan seolah sudah hampir menyamai Opus 4.7
Di HN ada kelompok yang sangat kecil, sangat berisik, dan sangat antusias yang sangat melebih-lebihkan kemampuan LLM lokal
Di antara model seukuran itu, ini termasuk yang tercepat yang pernah saya jalankan di GPU lokal, walau saya hanya mengujinya di kartu Nvidia
Belakangan saya sadar itu MoE dan parameter aktifnya cuma 3.6B, jadi banyak hal jadi masuk akal
Berguna untuk melihat secara realistis apa yang bisa dilakukan model lokal, terutama model kecil seperti 9B yang dipakai penulis
Model 9B ada di kisaran level Sonnet 3.6, jadi bisa untuk autocomplete dan fungsi kecil, tetapi ketika harus memahami masalah besar, ia mulai kehilangan alur
Meski begitu tetap menarik dan menyenangkan untuk dimainkan. Saya sendiri banyak membuat agent harness lokal terutama untuk seru-seruan
Proyek saya saat ini adalah agen tanpa instalasi: https://gemma-agent-explainer.nicklothian.com/
Python, SQL, dan React semuanya berjalan sepenuhnya di dalam browser. Untuk pengalaman terbaik saya merekomendasikan Gemma E4B
Masih aktif dikembangkan, dan saat ini butuh Chrome karena dukungan HTML5 Filesystem API dan LiteRT. Namun kemungkinan besar bisa dibuat berjalan juga di sebagian besar browser berbasis Chromium
Perbedaannya dengan kebanyakan agen lain adalah sifatnya tanpa instalasi. Model dijalankan di browser dengan LiteRT/LiteLLM, dan performanya lebih baik daripada Transformers.js. Dengan Filesystem API, akses baca ke direktori sandbox juga bisa diberikan secara opsional
Sistem ini mendokumentasikan dirinya sendiri, jadi dari panel bantuan real-time Anda bisa menanyakan hal seperti “bagaimana system prompt digunakan” dan ia dapat menjawab dengan mengakses source code-nya sendiri
Tekan “Tour” untuk melihat semuanya, dan minggu depan rencananya akan dirilis sebagai open source
Hanya saja benchmark yang dipakai orang untuk menilai model terlalu sering berubah, jadi sulit mencari perbandingan yang bagus. Sebagai referensi, Sonnet 3.6 keluar sekitar 1 tahun setelah GPT-3.5
Kalau dilihat kritis, memang benar model-model ini belum setara dengan level terbaik mutakhir untuk tugas coding kompleks
Tetapi cukup banyak pekerjaan kantoran itu berupa pengolahan Excel, memindahkan file, menerjemahkan dokumen hukum yang kaku, membuat draft email, atau pekerjaan remeh PPT
Untuk tugas-tugas seperti ini, model 30~35B ke atas sudah cukup, dan ada keuntungan tambahan karena data perusahaan bisa tetap privat
Yang dibayangkan orang ketika membahas model lokal adalah model yang keluar April tahun ini. Targetnya adalah Qwen 3.6 27B dan, kalau GPU lemah, qwen 35b a3b
Model-model ini layak dibandingkan secara serius dengan model mutakhir
Contoh terkenalnya, insiden London Whale di JPMorgan menyebabkan kerugian 6 miliar dolar karena kesalahan Excel
Saya sedang mempertimbangkan MacBook M5 Pro 18/20-core 64GB RAM, tetapi sangat sulit menemukan benchmark model di dunia nyata
Misalnya, saya ingin ada yang memberi tahu kira-kira berapa token per detik untuk kuantisasi Q4 dan Q6 dari Qwen 3.6 35B/A3B
Inferensi lokal sekarang cenderung mengarah ke model MoE, dan cukup banyak yang angka token per detiknya lumayan tetapi waktu sampai token pertamanya mengerikan
Saya menulis pengaturan acak yang saya pakai di Bluesky untuk M2 Studio 32GB, dan ingin mendapat masukan
Saya tipe orang yang kurang bisa kalau tidak melihat langsung, jadi saya bagikan dengan harapan ada yang membantu
https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...
Di M4 Pro 48GB saya menjalankan model kuantisasi qwen 3.6 9b, dan rasanya baru nyaris cukup berguna untuk pengembangan dasar berbasis pi.dev/cc
Untuk benar-benar melakukan pekerjaan yang berarti, tampaknya desktop 128GB adalah sweet spot. Hanya saja sekarang sulit mendapatkan mesin seperti itu
Menjalankan secara lokal memang menyenangkan, tetapi jangan lupa waktu kita juga tidak gratis
Untuk proyek pribadi, saya makin beralih ke OpenRouter, dan bahkan kalau memakai model qwen terbesar dengan serius pun biayanya kurang dari 2~3 dolar per hari
Dengan M4 Pro 48GB, Anda sebenarnya bisa menjalankan model yang lebih besar, jadi kalau kecerdasan model adalah kunci kegunaan, mungkin lebih masuk akal memakai model yang lebih besar
Saya setuju bahwa 9B dense memang kurang bagus
Saya juga memakai MacBook Pro M5 spesifikasi tertinggi terbaru dan sudah mencoba model lokal, tetapi levelnya nyaris hanya sekadar berjalan
Di 4090 24GB saya menjalankan qwen3.6:27B dengan konteks sekitar 128K memakai optimisasi memori activation terbaru turboquant/rotorquant
Sangat saya sarankan naik ke model sekelas itu. Kombinasi q4_xl+rotorquant cukup bagus
Ada juga kode referensi yang bisa dilempar ke agen
https://github.com/rapatel0/rq-models
Menurut saya lebih baik menghabiskan ribuan dolar untuk Mac daripada untuk langganan API
Model lokal memungkinkan bekerja kapan saja dan di mana saja tanpa khawatir kebocoran privasi