Menggunakan open LLM dan coding assistant secara lokal? Bagikan lingkungan Anda
(news.ycombinator.com)- Thread Ask HN yang menanyakan kepada pengguna Hacker News bagaimana mereka menggunakan open LLM dan coding assistant secara lokal, serta di hardware laptop seperti apa
- Model apa yang digunakan (mis. Ollama, LM Studio, dll.), dan coding assistant/solusi integrasi open source apa yang dipakai (mis. plugin VS Code)
- Hardware laptop apa yang digunakan (CPU, GPU/NPU, memori, GPU diskret atau GPU terintegrasi, OS), serta performa seperti apa yang terlihat dalam workflow mereka
- Dipakai untuk tugas apa saja (penyelesaian kode, refactoring, debugging, code review)? Dan seberapa stabil hasilnya (bagian yang bekerja baik dan bagian yang masih kurang)
-
1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue
- Kelebihan
- Berkat unified memory Mac, model seperti Qwen3-Coder-30B-A3B, gpt-oss-20b, hingga Gemma 27B bisa langsung dijalankan secara lokal, sehingga workflow “ambil kode → rangkum → lakukan perubahan kecil” bisa berjalan
- Cukup nyalakan LM Studio API atau Ollama serve, lalu VS Code Continue.dev, Zed, dan JetBrains bisa langsung terhubung, sehingga UX-nya nyaris seperti Claude Code
- Latensi rendah khas Mac membuat kecepatan sekitar 50~80 tok/s tidak terlalu terasa lambat untuk pelengkapan kode dan pembuatan komentar
- Bisa dipakai di pesawat/kereta/saat offline, jadi cocok untuk memastikan “kode perusahaan tidak keluar ke luar”
- Kekurangan
- Mulai model di atas 20B, muncul isu panas + suara kipas, dan bahkan pada M4 Max 128GB, 120B tetap terasa lambat atau mendekati batas
- Skenario agen yang “seperti Claude 4.5 Sonnet, terus mendorong dengan bash-in-a-loop sampai selesai” masih belum memadai
- MacBook kelas 24GB atau 32GB memiliki alokasi VRAM kecil, sehingga pada akhirnya harus turun ke model 7B~12B, dan begitu konteks diperbesar performanya langsung melambat
- Kelebihan
-
2) Desktop/workstation dengan RTX 3090·4090·Pro 6000, sementara laptop dipakai sebagai thin client
- Kelebihan
- Bisa mencoba llama.cpp / vLLM / Ollama semuanya, dan bahkan gpt-oss-120B pun bisa dijalankan “meski lambat, tapi benar-benar jalan”
- Di VS Code, Continue atau llama-vscode dijalankan dari laptop, sementara inferensi model dilakukan di mesin yang ada di rumah, sehingga beban baterai dan panas laptop hampir tidak ada
- Dengan RTX 3090 24GB, gpt-oss-20B, Qwen2.5/3 Coder 14~30B memberi kecepatan token yang cukup untuk penggunaan nyata, jadi autocomplete + refactoring singkat sudah memadai
- Banyak yang memasang Open WebUI + Ollama di rumah lalu terhubung lewat VPN/Tailscale, sehingga lingkungan privat tetap terjaga bahkan saat akses jarak jauh
- Kekurangan
- Jika VRAM GPU 24GB atau kurang, 120B harus dikuantisasi sangat agresif sehingga kualitasnya turun secara nyata
- vLLM punya performa bagus, tetapi instalasi dan build-nya merepotkan, sampai-sampai muncul komentar seperti “coba jalankan lagi dengan runner yang sudah diperbarui”, yang berarti biaya perawatannya tinggi
- Praktis tidak portabel, jadi kalau tujuannya adalah “benar-benar selesai dengan satu laptop saja”, struktur ini tidak cocok
- Kelebihan
-
3) Setup berpusat pada gpt-oss-120B (Aider, Codex, agen lokal)
- Kelebihan
- Beberapa orang mengatakan bahwa “dari semua yang pernah dicoba secara lokal, ini yang paling mendekati GPT-5”, yang menunjukkan akurasi tugas coding yang tinggi
- Bisa dipasangkan ke coding assistant terbuka seperti Aider, Codex, dan roocode untuk eksperimen yang benar-benar berjalan, dari review → revisi → test → commit sekaligus
- Di llama.cpp, dibagikan juga tips untuk memaksa menjalankan model lewat load campuran CPU+GPU, sehingga bahkan dengan VRAM 8GB pun masih bisa dicoba; artinya kebutuhan hardware lebih fleksibel dari yang dibayangkan
- Kekurangan
- Masalah utamanya adalah kecepatan. Jika 50 pertanyaan yang sama bisa diselesaikan ChatGPT dalam 6 menit, 120B bisa menghabiskan lebih dari 1 jam, jadi ini untuk orang yang siap menunggu
- Pada alat seperti Codex, parameter inference harus di-hardcode agar tidak macet, dan AGENTS.md perlu ditulis cukup berat agar model bekerja seperti manusia
- Jika hanya mengandalkan laptop, panas, daya, dan memori membuatnya sulit dijalankan lama; secara praktis lebih cocok dipandang sebagai “laptop yang terhubung ke GPU remote”
- Kelebihan
-
4) Laptop RAM besar seperti AMD Strix Halo / Ryzen AI / Framework 128GB + llama.cpp/Continue.dev
- Kelebihan
- Dengan RAM 128GB, Qwen3 Coder 30B masih bisa dipakai secara nyata, dan bisa menjalankan mode hybrid: layer yang perlu diletakkan di GPU/NPU, sisanya di RAM
- Menurut pengguna, ini pilihan realistis saat “kode tidak boleh keluar dari perusahaan” atau ketika “karena AMD, driver cloud-nya masih kurang bagus”
- Struktur seperti menjalankan server llama.cpp sederhana ala lemonade-server secara otomatis saat boot, lalu editor terhubung lewat jaringan, ternyata cukup efektif
- Kekurangan
- Ada laporan bahwa di Linux, hemat daya/kamera/driver masih belum mulus, dan kadang perlu menunggu kernel 6.18
- Performa NPU belum setara NVIDIA, sehingga “agen level frontier” masih jauh dari harapan; pada akhirnya berhenti di peran ‘asisten’ untuk model 20~30B
- Informasi untuk AMD harus dicari lewat repo GitHub atau forum, sehingga kepadatan informasinya lebih rendah dibanding Mac atau NVIDIA
- Kelebihan
-
5) Laptop umum 16~32GB (MacBook Air, M2/M3 Pro RAM rendah) + model 7B~12B hanya untuk autocomplete FIM
- Kelebihan
- Bahkan hanya dengan qwen2.5-coder:7b, mistral 7b instruct, atau gemma3:12b, tugas seperti “lanjutkan baris ini” atau “sintaks SQL ini bagaimana ya” bisa dijawab cepat
- Jika dipasangkan dengan plugin llama-vscode atau Continue.dev, autocomplete tetap berjalan walau internet terputus, sehingga ritme kerja tidak terganggu
- Beban hardware kecil, jadi panas dan suara kipas hampir tidak ada, serta baterai tidak cepat habis
- Kekurangan
- Begitu konteks sedikit lebih panjang, tingkat halusinasi langsung naik, dan tugas seperti refactoring atau pembuatan kode test yang “harus memahami beberapa file sekaligus” hampir tidak mungkin
- Banyak orang menegaskan, “ini bukan pengganti model cloud, melainkan khusus untuk autocomplete”
- Karena model harus diperkecil cukup agresif ke 4-bit, pilihan model menjadi sempit
- Kelebihan
-
6) Setup sepenuhnya offline/berorientasi privasi (Ollama + Open WebUI + VPN)
- Kelebihan
- Cukup letakkan satu Mac Studio M4 Max 128GB atau desktop di rumah, jalankan Ollama + Open WebUI, lalu dari luar cukup sambungkan laptop atau ponsel lewat VPN; semuanya tetap lokal
- Orang yang memakai struktur ini menilai keunggulannya adalah “sekarang hampir tidak pakai ChatGPT lagi” dan “karena versinya tidak berubah, prompt yang sudah dituning tidak rusak”
- Saat ada tuntutan internal bahwa “semua kode tidak boleh dipakai untuk training”, ini adalah struktur yang paling mudah dijelaskan
- Kekurangan
- Upgrade/penggantian model harus dilakukan sendiri, jadi tidak ada manfaat seperti cloud yang “makin pintar dengan sendirinya”
- Jika GPU lemah, model di atas 20B langsung terasa lambat, sehingga pada akhirnya hardware harus ditambah, dan saat itu muncul pikiran “kenapa tidak pakai cloud saja?”
- Kelebihan
-
7) Kesimpulan umum yang muncul
- Dengan “laptop saja”, masih sulit menggantikan Claude Code / GPT-5 + agen; model lokal paling cocok untuk pembuatan kode singkat, bantuan, ringkasan, dan autocomplete
- Karena itu, pola yang paling sering muncul adalah “laptop ↔ mesin besar di rumah” atau “Mac 128GB yang fokus menjalankan 20~30B dengan cepat”
- Meski begitu, semua orang mengatakan hal yang sama: jika membutuhkan privasi terjamin + latensi nyaris nol + versi yang tidak berubah, maka sampai sekarang solusi lokal masih menjadi jawabannya
6 komentar
Sepertinya akan lebih baik daripada memakai VPN jika mengatur bearer token dan menggunakan SSH tunneling.
Saya rasa memulai self-hosting LLM akan tetap menjadi kondisi yang secara hitung-hitungan bisnis tidak masuk akal selama 5 tahun ke depan karena biaya investasi awalnya besar. Saya berencana mempertimbangkannya lagi 3–5 tahun lagi, ketika sudah ada hardware yang cukup cepat khusus untuk autocompletion kode dan menawarkan keunggulan dari sisi harga.
Konfigurasi yang sudah ditinjau
Komentar Hacker News
Saya membeli Dell Precision 3620 Tower i7-7700 bekas karena ingin mencoba AI secara langsung
Saya meng-upgrade RAM, dan juga mengganti power supply agar bisa memasang RTX 3060 sebagai GPU
Saya memasang Ubuntu Server lalu menjadikannya sebagai node klaster k3s di rumah, dan menjalankan Ollama serta OpenWebUI
Ini terutama dipakai untuk tagging dan ringkasan AI di Karakeep, tetapi juga dimanfaatkan untuk analisis kamera driveway yang mendeteksi kendaraan pengantar dengan kode Python
Saya menjalankan Ollama berbasis CPU tanpa GPU di Dell Precision T710 (Xeon E6320, RAM 120GB, RAID5 SSD 240TB)
Saya sedang mengerjakan proyek untuk mengindeks hukum pemilu dari 50 negara bagian dengan RAG guna memvisualisasikan ketidakcocokan istilah dan masalah halusinasi
Tujuannya adalah mengidentifikasi kesenjangan integritas dalam prosedur pemilu
Mindmap terkait bisa dilihat di Election Frauds v1.4 Mindmap PDF
Saya memang ngoding dengan LLM lokal, tetapi di laptop itu tak terbayangkan
Saya memakainya di server GPU dengan llama.cpp + llama-swap untuk berganti model
Setup yang paling memuaskan adalah kombinasi Aider + gpt-oss-120b
Mungkin bisa juga dengan Ryzen AI Max+ RAM 128GB, tetapi hardware non-NVIDIA sangat lambat
Lewat OpenRouter, kita juga bisa memilih hanya penyedia tanpa retensi data
Namun GPT5 atau Claude jauh lebih cepat dan murah dibanding lokal
ChatGPT mencatat 46/50 dalam 6 menit, sedangkan gpt-oss-120b mencatat 47/50 dalam 1 jam
Dijalankan di lingkungan i7 + RAM 64GB + GPU VRAM 8GB
Kalau ingin menjalankan agen kode lokal di Mac, bisa seperti ini
npm install -g @openai/codexbrew install ollama; ollama serveollama pull gpt-oss:20bcodex --oss -m gpt-oss:20bIni berjalan tanpa internet, dan membutuhkan Mac M1 ke atas + memori GPU 24GB
Model 120b punya performa 1,5x lebih baik daripada 20b, tetapi kebutuhan spesifikasinya 5x lebih besar
Saya menjalankan Qwen3-Coder-30B-A3B Q4 quant dengan llama.cpp di MacBook Pro 64GB
Di VSCode saya memakai continue.dev dan mengatur system prompt tetap singkat
Saya mendapatkan kecepatan generasi 50 token per detik, dan throughput 550 token
Untuk tugas yang pendek dan jelas, kualitasnya mirip model frontier
Saya puas karena cepat dan stabil bahkan di lingkungan offline
Untuk tugas yang lebih kompleks saya memakai API Claude atau Deepseek
Jika membeli Mac, saya merekomendasikan model Pro atau lebih tinggi
Air tidak punya kipas sehingga manajemen panasnya buruk, dan menurut saya Studio lebih baik daripada Mac mini
Dengan aplikasi TG Pro, kipas bisa diatur lebih sensitif (sekitar $20)
Saya menjalankan model GPT OSS 20B di MacBook Pro M4 Pro + RAM 24GB, tetapi context window-nya kecil
Kalau model 128GB, sepertinya bisa dipakai ngoding offline sepanjang hari
Saya menggunakan Apple M4 Max 128GB dan GPD Win 4 (Ubuntu 24.04) yang terhubung lewat USB-C
Saya menggabungkan Claude Code, RA.Aid, dan llama.cpp untuk mendistribusikan pekerjaan dengan Agent Organizer
Claude mengotomatisasi dari perancangan arsitektur sampai code review
Kalau ingin melihat workstation LLM, saya merekomendasikan channel YouTube Alex Ziskind (@AZisk)
Channel itu membahas berbagai review workstation untuk LLM lokal
Presentasinya rapi dan sarannya praktis
Saya terutama memakai LMStudio dan Ollama di MacBook Pro M4 Max 128GB
Modelnya adalah qwen3-coder-30b A3B Instruct 8-bit MLX dan gpt-oss-120b-MXFP4-Q8
Ada keterbatasan untuk generasi kode skala besar, tetapi untuk meringkas repo lokal dan membuat dokumentasi ini sudah cukup
Komunitas terkait juga aktif
Untuk membuat README, saya lebih suka gemma3-27b-it-qat dan gpt-oss-120b
Saya menjalankan Qwen3:32b via CLI di MacBook Pro M1 Pro 32GB + Asahi Linux
Saya memanfaatkannya untuk bantuan terkait assembly ARMv8 atau SoC
Kecepatannya cukup layak, hanya sedikit lebih lambat dari kecepatan membaca
Saya tertarik setelah mendengar bahwa Qwen3-coder lebih cepat
Saya lebih suka lingkungan lokal sepenuhnya tanpa cloud atau integrasi agen
Karena Ollama mulai menjauh dari orientasi offline, saya sekarang ingin beralih ke llama.cpp
Karena format modelnya berbeda, saya sedang mempertimbangkan apakah model Ollama bisa dipakai begitu saja
[Peringatan] Di Linux konsumsi dayanya tinggi, jadi harus dipakai saat terhubung ke listrik
Untuk tugas umum mungkin kurang pintar, tetapi sangat efisien untuk tugas yang berfokus pada coding
Kalau terus dibaca..... jadi terpikir, ternyata ada permintaan untuk DGX SPARK juga ya? Awalnya saya sempat berpikir, itu value for money-nya parah, ngapain dibeli! Tapi,
Karena kebijakan keamanan internal perusahaan, kami sama sekali tidak menggunakan API LLM eksternal, dan saat ini menggunakan
gpt ossberbasisvllmyang disediakan oleh departemen pengelolaan cloud internal.Agak ambigu juga kalau dibilang lokal.