Menggunakan open LLM dan coding assistant secara lokal? Bagikan lingkungan Anda

(news.ycombinator.com)

16 poin oleh GN⁺ 2025-11-01 | Belum ada komentar. | Bagikan ke WhatsApp

Thread Ask HN yang menanyakan kepada pengguna Hacker News bagaimana mereka menggunakan open LLM dan coding assistant secara lokal, serta di hardware laptop seperti apa
Model apa yang digunakan (mis. Ollama, LM Studio, dll.), dan coding assistant/solusi integrasi open source apa yang dipakai (mis. plugin VS Code)
Hardware laptop apa yang digunakan (CPU, GPU/NPU, memori, GPU diskret atau GPU terintegrasi, OS), serta performa seperti apa yang terlihat dalam workflow mereka
Dipakai untuk tugas apa saja (penyelesaian kode, refactoring, debugging, code review)? Dan seberapa stabil hasilnya (bagian yang bekerja baik dan bagian yang masih kurang)

1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue
- Kelebihan
  - Berkat unified memory Mac, model seperti Qwen3-Coder-30B-A3B, gpt-oss-20b, hingga Gemma 27B bisa langsung dijalankan secara lokal, sehingga workflow “ambil kode → rangkum → lakukan perubahan kecil” bisa berjalan
  - Cukup nyalakan LM Studio API atau Ollama serve, lalu VS Code Continue.dev, Zed, dan JetBrains bisa langsung terhubung, sehingga UX-nya nyaris seperti Claude Code
  - Latensi rendah khas Mac membuat kecepatan sekitar 50~80 tok/s tidak terlalu terasa lambat untuk pelengkapan kode dan pembuatan komentar
  - Bisa dipakai di pesawat/kereta/saat offline, jadi cocok untuk memastikan “kode perusahaan tidak keluar ke luar”
- Kekurangan
  - Mulai model di atas 20B, muncul isu panas + suara kipas, dan bahkan pada M4 Max 128GB, 120B tetap terasa lambat atau mendekati batas
  - Skenario agen yang “seperti Claude 4.5 Sonnet, terus mendorong dengan bash-in-a-loop sampai selesai” masih belum memadai
  - MacBook kelas 24GB atau 32GB memiliki alokasi VRAM kecil, sehingga pada akhirnya harus turun ke model 7B~12B, dan begitu konteks diperbesar performanya langsung melambat
2) Desktop/workstation dengan RTX 3090·4090·Pro 6000, sementara laptop dipakai sebagai thin client
- Kelebihan
  - Bisa mencoba llama.cpp / vLLM / Ollama semuanya, dan bahkan gpt-oss-120B pun bisa dijalankan “meski lambat, tapi benar-benar jalan”
  - Di VS Code, Continue atau llama-vscode dijalankan dari laptop, sementara inferensi model dilakukan di mesin yang ada di rumah, sehingga beban baterai dan panas laptop hampir tidak ada
  - Dengan RTX 3090 24GB, gpt-oss-20B, Qwen2.5/3 Coder 14~30B memberi kecepatan token yang cukup untuk penggunaan nyata, jadi autocomplete + refactoring singkat sudah memadai
  - Banyak yang memasang Open WebUI + Ollama di rumah lalu terhubung lewat VPN/Tailscale, sehingga lingkungan privat tetap terjaga bahkan saat akses jarak jauh
- Kekurangan
  - Jika VRAM GPU 24GB atau kurang, 120B harus dikuantisasi sangat agresif sehingga kualitasnya turun secara nyata
  - vLLM punya performa bagus, tetapi instalasi dan build-nya merepotkan, sampai-sampai muncul komentar seperti “coba jalankan lagi dengan runner yang sudah diperbarui”, yang berarti biaya perawatannya tinggi
  - Praktis tidak portabel, jadi kalau tujuannya adalah “benar-benar selesai dengan satu laptop saja”, struktur ini tidak cocok
3) Setup berpusat pada gpt-oss-120B (Aider, Codex, agen lokal)
- Kelebihan
  - Beberapa orang mengatakan bahwa “dari semua yang pernah dicoba secara lokal, ini yang paling mendekati GPT-5”, yang menunjukkan akurasi tugas coding yang tinggi
  - Bisa dipasangkan ke coding assistant terbuka seperti Aider, Codex, dan roocode untuk eksperimen yang benar-benar berjalan, dari review → revisi → test → commit sekaligus
  - Di llama.cpp, dibagikan juga tips untuk memaksa menjalankan model lewat load campuran CPU+GPU, sehingga bahkan dengan VRAM 8GB pun masih bisa dicoba; artinya kebutuhan hardware lebih fleksibel dari yang dibayangkan
- Kekurangan
  - Masalah utamanya adalah kecepatan. Jika 50 pertanyaan yang sama bisa diselesaikan ChatGPT dalam 6 menit, 120B bisa menghabiskan lebih dari 1 jam, jadi ini untuk orang yang siap menunggu
  - Pada alat seperti Codex, parameter inference harus di-hardcode agar tidak macet, dan AGENTS.md perlu ditulis cukup berat agar model bekerja seperti manusia
  - Jika hanya mengandalkan laptop, panas, daya, dan memori membuatnya sulit dijalankan lama; secara praktis lebih cocok dipandang sebagai “laptop yang terhubung ke GPU remote”
4) Laptop RAM besar seperti AMD Strix Halo / Ryzen AI / Framework 128GB + llama.cpp/Continue.dev
- Kelebihan
  - Dengan RAM 128GB, Qwen3 Coder 30B masih bisa dipakai secara nyata, dan bisa menjalankan mode hybrid: layer yang perlu diletakkan di GPU/NPU, sisanya di RAM
  - Menurut pengguna, ini pilihan realistis saat “kode tidak boleh keluar dari perusahaan” atau ketika “karena AMD, driver cloud-nya masih kurang bagus”
  - Struktur seperti menjalankan server llama.cpp sederhana ala lemonade-server secara otomatis saat boot, lalu editor terhubung lewat jaringan, ternyata cukup efektif
- Kekurangan
  - Ada laporan bahwa di Linux, hemat daya/kamera/driver masih belum mulus, dan kadang perlu menunggu kernel 6.18
  - Performa NPU belum setara NVIDIA, sehingga “agen level frontier” masih jauh dari harapan; pada akhirnya berhenti di peran ‘asisten’ untuk model 20~30B
  - Informasi untuk AMD harus dicari lewat repo GitHub atau forum, sehingga kepadatan informasinya lebih rendah dibanding Mac atau NVIDIA
5) Laptop umum 16~32GB (MacBook Air, M2/M3 Pro RAM rendah) + model 7B~12B hanya untuk autocomplete FIM
- Kelebihan
  - Bahkan hanya dengan qwen2.5-coder:7b, mistral 7b instruct, atau gemma3:12b, tugas seperti “lanjutkan baris ini” atau “sintaks SQL ini bagaimana ya” bisa dijawab cepat
  - Jika dipasangkan dengan plugin llama-vscode atau Continue.dev, autocomplete tetap berjalan walau internet terputus, sehingga ritme kerja tidak terganggu
  - Beban hardware kecil, jadi panas dan suara kipas hampir tidak ada, serta baterai tidak cepat habis
- Kekurangan
  - Begitu konteks sedikit lebih panjang, tingkat halusinasi langsung naik, dan tugas seperti refactoring atau pembuatan kode test yang “harus memahami beberapa file sekaligus” hampir tidak mungkin
  - Banyak orang menegaskan, “ini bukan pengganti model cloud, melainkan khusus untuk autocomplete”
  - Karena model harus diperkecil cukup agresif ke 4-bit, pilihan model menjadi sempit
6) Setup sepenuhnya offline/berorientasi privasi (Ollama + Open WebUI + VPN)
- Kelebihan
  - Cukup letakkan satu Mac Studio M4 Max 128GB atau desktop di rumah, jalankan Ollama + Open WebUI, lalu dari luar cukup sambungkan laptop atau ponsel lewat VPN; semuanya tetap lokal
  - Orang yang memakai struktur ini menilai keunggulannya adalah “sekarang hampir tidak pakai ChatGPT lagi” dan “karena versinya tidak berubah, prompt yang sudah dituning tidak rusak”
  - Saat ada tuntutan internal bahwa “semua kode tidak boleh dipakai untuk training”, ini adalah struktur yang paling mudah dijelaskan
- Kekurangan
  - Upgrade/penggantian model harus dilakukan sendiri, jadi tidak ada manfaat seperti cloud yang “makin pintar dengan sendirinya”
  - Jika GPU lemah, model di atas 20B langsung terasa lambat, sehingga pada akhirnya hardware harus ditambah, dan saat itu muncul pikiran “kenapa tidak pakai cloud saja?”
7) Kesimpulan umum yang muncul
- Dengan “laptop saja”, masih sulit menggantikan Claude Code / GPT-5 + agen; model lokal paling cocok untuk pembuatan kode singkat, bantuan, ringkasan, dan autocomplete
- Karena itu, pola yang paling sering muncul adalah “laptop ↔ mesin besar di rumah” atau “Mac 128GB yang fokus menjalankan 20~30B dengan cepat”
- Meski begitu, semua orang mengatakan hal yang sama: jika membutuhkan privasi terjamin + latensi nyaris nol + versi yang tidak berubah, maka sampai sekarang solusi lokal masih menjadi jawabannya

Menggunakan open LLM dan coding assistant secara lokal? Bagikan lingkungan Anda

Bacaan terkait

Belum ada komentar.