16 poin oleh GN⁺ 2025-11-01 | Belum ada komentar. | Bagikan ke WhatsApp
  • Thread Ask HN yang menanyakan kepada pengguna Hacker News bagaimana mereka menggunakan open LLM dan coding assistant secara lokal, serta di hardware laptop seperti apa
  • Model apa yang digunakan (mis. Ollama, LM Studio, dll.), dan coding assistant/solusi integrasi open source apa yang dipakai (mis. plugin VS Code)
  • Hardware laptop apa yang digunakan (CPU, GPU/NPU, memori, GPU diskret atau GPU terintegrasi, OS), serta performa seperti apa yang terlihat dalam workflow mereka
  • Dipakai untuk tugas apa saja (penyelesaian kode, refactoring, debugging, code review)? Dan seberapa stabil hasilnya (bagian yang bekerja baik dan bagian yang masih kurang)

  • 1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue

    • Kelebihan
      • Berkat unified memory Mac, model seperti Qwen3-Coder-30B-A3B, gpt-oss-20b, hingga Gemma 27B bisa langsung dijalankan secara lokal, sehingga workflow “ambil kode → rangkum → lakukan perubahan kecil” bisa berjalan
      • Cukup nyalakan LM Studio API atau Ollama serve, lalu VS Code Continue.dev, Zed, dan JetBrains bisa langsung terhubung, sehingga UX-nya nyaris seperti Claude Code
      • Latensi rendah khas Mac membuat kecepatan sekitar 50~80 tok/s tidak terlalu terasa lambat untuk pelengkapan kode dan pembuatan komentar
      • Bisa dipakai di pesawat/kereta/saat offline, jadi cocok untuk memastikan “kode perusahaan tidak keluar ke luar”
    • Kekurangan
      • Mulai model di atas 20B, muncul isu panas + suara kipas, dan bahkan pada M4 Max 128GB, 120B tetap terasa lambat atau mendekati batas
      • Skenario agen yang “seperti Claude 4.5 Sonnet, terus mendorong dengan bash-in-a-loop sampai selesai” masih belum memadai
      • MacBook kelas 24GB atau 32GB memiliki alokasi VRAM kecil, sehingga pada akhirnya harus turun ke model 7B~12B, dan begitu konteks diperbesar performanya langsung melambat
  • 2) Desktop/workstation dengan RTX 3090·4090·Pro 6000, sementara laptop dipakai sebagai thin client

    • Kelebihan
      • Bisa mencoba llama.cpp / vLLM / Ollama semuanya, dan bahkan gpt-oss-120B pun bisa dijalankan “meski lambat, tapi benar-benar jalan”
      • Di VS Code, Continue atau llama-vscode dijalankan dari laptop, sementara inferensi model dilakukan di mesin yang ada di rumah, sehingga beban baterai dan panas laptop hampir tidak ada
      • Dengan RTX 3090 24GB, gpt-oss-20B, Qwen2.5/3 Coder 14~30B memberi kecepatan token yang cukup untuk penggunaan nyata, jadi autocomplete + refactoring singkat sudah memadai
      • Banyak yang memasang Open WebUI + Ollama di rumah lalu terhubung lewat VPN/Tailscale, sehingga lingkungan privat tetap terjaga bahkan saat akses jarak jauh
    • Kekurangan
      • Jika VRAM GPU 24GB atau kurang, 120B harus dikuantisasi sangat agresif sehingga kualitasnya turun secara nyata
      • vLLM punya performa bagus, tetapi instalasi dan build-nya merepotkan, sampai-sampai muncul komentar seperti “coba jalankan lagi dengan runner yang sudah diperbarui”, yang berarti biaya perawatannya tinggi
      • Praktis tidak portabel, jadi kalau tujuannya adalah “benar-benar selesai dengan satu laptop saja”, struktur ini tidak cocok
  • 3) Setup berpusat pada gpt-oss-120B (Aider, Codex, agen lokal)

    • Kelebihan
      • Beberapa orang mengatakan bahwa “dari semua yang pernah dicoba secara lokal, ini yang paling mendekati GPT-5”, yang menunjukkan akurasi tugas coding yang tinggi
      • Bisa dipasangkan ke coding assistant terbuka seperti Aider, Codex, dan roocode untuk eksperimen yang benar-benar berjalan, dari review → revisi → test → commit sekaligus
      • Di llama.cpp, dibagikan juga tips untuk memaksa menjalankan model lewat load campuran CPU+GPU, sehingga bahkan dengan VRAM 8GB pun masih bisa dicoba; artinya kebutuhan hardware lebih fleksibel dari yang dibayangkan
    • Kekurangan
      • Masalah utamanya adalah kecepatan. Jika 50 pertanyaan yang sama bisa diselesaikan ChatGPT dalam 6 menit, 120B bisa menghabiskan lebih dari 1 jam, jadi ini untuk orang yang siap menunggu
      • Pada alat seperti Codex, parameter inference harus di-hardcode agar tidak macet, dan AGENTS.md perlu ditulis cukup berat agar model bekerja seperti manusia
      • Jika hanya mengandalkan laptop, panas, daya, dan memori membuatnya sulit dijalankan lama; secara praktis lebih cocok dipandang sebagai “laptop yang terhubung ke GPU remote”
  • 4) Laptop RAM besar seperti AMD Strix Halo / Ryzen AI / Framework 128GB + llama.cpp/Continue.dev

    • Kelebihan
      • Dengan RAM 128GB, Qwen3 Coder 30B masih bisa dipakai secara nyata, dan bisa menjalankan mode hybrid: layer yang perlu diletakkan di GPU/NPU, sisanya di RAM
      • Menurut pengguna, ini pilihan realistis saat “kode tidak boleh keluar dari perusahaan” atau ketika “karena AMD, driver cloud-nya masih kurang bagus”
      • Struktur seperti menjalankan server llama.cpp sederhana ala lemonade-server secara otomatis saat boot, lalu editor terhubung lewat jaringan, ternyata cukup efektif
    • Kekurangan
      • Ada laporan bahwa di Linux, hemat daya/kamera/driver masih belum mulus, dan kadang perlu menunggu kernel 6.18
      • Performa NPU belum setara NVIDIA, sehingga “agen level frontier” masih jauh dari harapan; pada akhirnya berhenti di peran ‘asisten’ untuk model 20~30B
      • Informasi untuk AMD harus dicari lewat repo GitHub atau forum, sehingga kepadatan informasinya lebih rendah dibanding Mac atau NVIDIA
  • 5) Laptop umum 16~32GB (MacBook Air, M2/M3 Pro RAM rendah) + model 7B~12B hanya untuk autocomplete FIM

    • Kelebihan
      • Bahkan hanya dengan qwen2.5-coder:7b, mistral 7b instruct, atau gemma3:12b, tugas seperti “lanjutkan baris ini” atau “sintaks SQL ini bagaimana ya” bisa dijawab cepat
      • Jika dipasangkan dengan plugin llama-vscode atau Continue.dev, autocomplete tetap berjalan walau internet terputus, sehingga ritme kerja tidak terganggu
      • Beban hardware kecil, jadi panas dan suara kipas hampir tidak ada, serta baterai tidak cepat habis
    • Kekurangan
      • Begitu konteks sedikit lebih panjang, tingkat halusinasi langsung naik, dan tugas seperti refactoring atau pembuatan kode test yang “harus memahami beberapa file sekaligus” hampir tidak mungkin
      • Banyak orang menegaskan, “ini bukan pengganti model cloud, melainkan khusus untuk autocomplete”
      • Karena model harus diperkecil cukup agresif ke 4-bit, pilihan model menjadi sempit
  • 6) Setup sepenuhnya offline/berorientasi privasi (Ollama + Open WebUI + VPN)

    • Kelebihan
      • Cukup letakkan satu Mac Studio M4 Max 128GB atau desktop di rumah, jalankan Ollama + Open WebUI, lalu dari luar cukup sambungkan laptop atau ponsel lewat VPN; semuanya tetap lokal
      • Orang yang memakai struktur ini menilai keunggulannya adalah “sekarang hampir tidak pakai ChatGPT lagi” dan “karena versinya tidak berubah, prompt yang sudah dituning tidak rusak”
      • Saat ada tuntutan internal bahwa “semua kode tidak boleh dipakai untuk training”, ini adalah struktur yang paling mudah dijelaskan
    • Kekurangan
      • Upgrade/penggantian model harus dilakukan sendiri, jadi tidak ada manfaat seperti cloud yang “makin pintar dengan sendirinya”
      • Jika GPU lemah, model di atas 20B langsung terasa lambat, sehingga pada akhirnya hardware harus ditambah, dan saat itu muncul pikiran “kenapa tidak pakai cloud saja?”
  • 7) Kesimpulan umum yang muncul

    • Dengan “laptop saja”, masih sulit menggantikan Claude Code / GPT-5 + agen; model lokal paling cocok untuk pembuatan kode singkat, bantuan, ringkasan, dan autocomplete
    • Karena itu, pola yang paling sering muncul adalah “laptop ↔ mesin besar di rumah” atau “Mac 128GB yang fokus menjalankan 20~30B dengan cepat”
    • Meski begitu, semua orang mengatakan hal yang sama: jika membutuhkan privasi terjamin + latensi nyaris nol + versi yang tidak berubah, maka sampai sekarang solusi lokal masih menjadi jawabannya

Belum ada komentar.

Belum ada komentar.