Menggunakan open LLM dan coding assistant secara lokal? Bagikan lingkungan Anda
(news.ycombinator.com)- Thread Ask HN yang menanyakan kepada pengguna Hacker News bagaimana mereka menggunakan open LLM dan coding assistant secara lokal, serta di hardware laptop seperti apa
- Model apa yang digunakan (mis. Ollama, LM Studio, dll.), dan coding assistant/solusi integrasi open source apa yang dipakai (mis. plugin VS Code)
- Hardware laptop apa yang digunakan (CPU, GPU/NPU, memori, GPU diskret atau GPU terintegrasi, OS), serta performa seperti apa yang terlihat dalam workflow mereka
- Dipakai untuk tugas apa saja (penyelesaian kode, refactoring, debugging, code review)? Dan seberapa stabil hasilnya (bagian yang bekerja baik dan bagian yang masih kurang)
-
1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue
- Kelebihan
- Berkat unified memory Mac, model seperti Qwen3-Coder-30B-A3B, gpt-oss-20b, hingga Gemma 27B bisa langsung dijalankan secara lokal, sehingga workflow “ambil kode → rangkum → lakukan perubahan kecil” bisa berjalan
- Cukup nyalakan LM Studio API atau Ollama serve, lalu VS Code Continue.dev, Zed, dan JetBrains bisa langsung terhubung, sehingga UX-nya nyaris seperti Claude Code
- Latensi rendah khas Mac membuat kecepatan sekitar 50~80 tok/s tidak terlalu terasa lambat untuk pelengkapan kode dan pembuatan komentar
- Bisa dipakai di pesawat/kereta/saat offline, jadi cocok untuk memastikan “kode perusahaan tidak keluar ke luar”
- Kekurangan
- Mulai model di atas 20B, muncul isu panas + suara kipas, dan bahkan pada M4 Max 128GB, 120B tetap terasa lambat atau mendekati batas
- Skenario agen yang “seperti Claude 4.5 Sonnet, terus mendorong dengan bash-in-a-loop sampai selesai” masih belum memadai
- MacBook kelas 24GB atau 32GB memiliki alokasi VRAM kecil, sehingga pada akhirnya harus turun ke model 7B~12B, dan begitu konteks diperbesar performanya langsung melambat
- Kelebihan
-
2) Desktop/workstation dengan RTX 3090·4090·Pro 6000, sementara laptop dipakai sebagai thin client
- Kelebihan
- Bisa mencoba llama.cpp / vLLM / Ollama semuanya, dan bahkan gpt-oss-120B pun bisa dijalankan “meski lambat, tapi benar-benar jalan”
- Di VS Code, Continue atau llama-vscode dijalankan dari laptop, sementara inferensi model dilakukan di mesin yang ada di rumah, sehingga beban baterai dan panas laptop hampir tidak ada
- Dengan RTX 3090 24GB, gpt-oss-20B, Qwen2.5/3 Coder 14~30B memberi kecepatan token yang cukup untuk penggunaan nyata, jadi autocomplete + refactoring singkat sudah memadai
- Banyak yang memasang Open WebUI + Ollama di rumah lalu terhubung lewat VPN/Tailscale, sehingga lingkungan privat tetap terjaga bahkan saat akses jarak jauh
- Kekurangan
- Jika VRAM GPU 24GB atau kurang, 120B harus dikuantisasi sangat agresif sehingga kualitasnya turun secara nyata
- vLLM punya performa bagus, tetapi instalasi dan build-nya merepotkan, sampai-sampai muncul komentar seperti “coba jalankan lagi dengan runner yang sudah diperbarui”, yang berarti biaya perawatannya tinggi
- Praktis tidak portabel, jadi kalau tujuannya adalah “benar-benar selesai dengan satu laptop saja”, struktur ini tidak cocok
- Kelebihan
-
3) Setup berpusat pada gpt-oss-120B (Aider, Codex, agen lokal)
- Kelebihan
- Beberapa orang mengatakan bahwa “dari semua yang pernah dicoba secara lokal, ini yang paling mendekati GPT-5”, yang menunjukkan akurasi tugas coding yang tinggi
- Bisa dipasangkan ke coding assistant terbuka seperti Aider, Codex, dan roocode untuk eksperimen yang benar-benar berjalan, dari review → revisi → test → commit sekaligus
- Di llama.cpp, dibagikan juga tips untuk memaksa menjalankan model lewat load campuran CPU+GPU, sehingga bahkan dengan VRAM 8GB pun masih bisa dicoba; artinya kebutuhan hardware lebih fleksibel dari yang dibayangkan
- Kekurangan
- Masalah utamanya adalah kecepatan. Jika 50 pertanyaan yang sama bisa diselesaikan ChatGPT dalam 6 menit, 120B bisa menghabiskan lebih dari 1 jam, jadi ini untuk orang yang siap menunggu
- Pada alat seperti Codex, parameter inference harus di-hardcode agar tidak macet, dan AGENTS.md perlu ditulis cukup berat agar model bekerja seperti manusia
- Jika hanya mengandalkan laptop, panas, daya, dan memori membuatnya sulit dijalankan lama; secara praktis lebih cocok dipandang sebagai “laptop yang terhubung ke GPU remote”
- Kelebihan
-
4) Laptop RAM besar seperti AMD Strix Halo / Ryzen AI / Framework 128GB + llama.cpp/Continue.dev
- Kelebihan
- Dengan RAM 128GB, Qwen3 Coder 30B masih bisa dipakai secara nyata, dan bisa menjalankan mode hybrid: layer yang perlu diletakkan di GPU/NPU, sisanya di RAM
- Menurut pengguna, ini pilihan realistis saat “kode tidak boleh keluar dari perusahaan” atau ketika “karena AMD, driver cloud-nya masih kurang bagus”
- Struktur seperti menjalankan server llama.cpp sederhana ala lemonade-server secara otomatis saat boot, lalu editor terhubung lewat jaringan, ternyata cukup efektif
- Kekurangan
- Ada laporan bahwa di Linux, hemat daya/kamera/driver masih belum mulus, dan kadang perlu menunggu kernel 6.18
- Performa NPU belum setara NVIDIA, sehingga “agen level frontier” masih jauh dari harapan; pada akhirnya berhenti di peran ‘asisten’ untuk model 20~30B
- Informasi untuk AMD harus dicari lewat repo GitHub atau forum, sehingga kepadatan informasinya lebih rendah dibanding Mac atau NVIDIA
- Kelebihan
-
5) Laptop umum 16~32GB (MacBook Air, M2/M3 Pro RAM rendah) + model 7B~12B hanya untuk autocomplete FIM
- Kelebihan
- Bahkan hanya dengan qwen2.5-coder:7b, mistral 7b instruct, atau gemma3:12b, tugas seperti “lanjutkan baris ini” atau “sintaks SQL ini bagaimana ya” bisa dijawab cepat
- Jika dipasangkan dengan plugin llama-vscode atau Continue.dev, autocomplete tetap berjalan walau internet terputus, sehingga ritme kerja tidak terganggu
- Beban hardware kecil, jadi panas dan suara kipas hampir tidak ada, serta baterai tidak cepat habis
- Kekurangan
- Begitu konteks sedikit lebih panjang, tingkat halusinasi langsung naik, dan tugas seperti refactoring atau pembuatan kode test yang “harus memahami beberapa file sekaligus” hampir tidak mungkin
- Banyak orang menegaskan, “ini bukan pengganti model cloud, melainkan khusus untuk autocomplete”
- Karena model harus diperkecil cukup agresif ke 4-bit, pilihan model menjadi sempit
- Kelebihan
-
6) Setup sepenuhnya offline/berorientasi privasi (Ollama + Open WebUI + VPN)
- Kelebihan
- Cukup letakkan satu Mac Studio M4 Max 128GB atau desktop di rumah, jalankan Ollama + Open WebUI, lalu dari luar cukup sambungkan laptop atau ponsel lewat VPN; semuanya tetap lokal
- Orang yang memakai struktur ini menilai keunggulannya adalah “sekarang hampir tidak pakai ChatGPT lagi” dan “karena versinya tidak berubah, prompt yang sudah dituning tidak rusak”
- Saat ada tuntutan internal bahwa “semua kode tidak boleh dipakai untuk training”, ini adalah struktur yang paling mudah dijelaskan
- Kekurangan
- Upgrade/penggantian model harus dilakukan sendiri, jadi tidak ada manfaat seperti cloud yang “makin pintar dengan sendirinya”
- Jika GPU lemah, model di atas 20B langsung terasa lambat, sehingga pada akhirnya hardware harus ditambah, dan saat itu muncul pikiran “kenapa tidak pakai cloud saja?”
- Kelebihan
-
7) Kesimpulan umum yang muncul
- Dengan “laptop saja”, masih sulit menggantikan Claude Code / GPT-5 + agen; model lokal paling cocok untuk pembuatan kode singkat, bantuan, ringkasan, dan autocomplete
- Karena itu, pola yang paling sering muncul adalah “laptop ↔ mesin besar di rumah” atau “Mac 128GB yang fokus menjalankan 20~30B dengan cepat”
- Meski begitu, semua orang mengatakan hal yang sama: jika membutuhkan privasi terjamin + latensi nyaris nol + versi yang tidak berubah, maka sampai sekarang solusi lokal masih menjadi jawabannya
Belum ada komentar.