20 poin oleh GN⁺ 2025-12-22 | 3 komentar | Bagikan ke WhatsApp
  • Model lokal dapat menangani sekitar 90% pekerjaan pengembangan dengan cukup baik, tetapi untuk 10% pekerjaan presisi yang tersisa, layanan komersial masih lebih unggul
  • Dari sisi penghematan biaya, keamanan, dan ketersediaan, model lokal punya kelebihan besar, terutama berguna untuk proyek pribadi atau lingkungan offline
  • Namun kompatibilitas alat, keterbatasan memori, dan kompleksitas pengaturan disebut sebagai hambatan utama dalam penerapan di dunia kerja
  • Model lokal berguna untuk proyek hobi, tetapi tidak cocok untuk lingkungan produksi atau penggunaan perusahaan; pendekatan yang realistis adalah memakainya sebagai pelengkap alat frontier
  • Dengan hadirnya alat coding AI gratis dari Google (Gemini CLI, Jules, dll.), efek penghematan biaya dari model lokal banyak berkurang

Pemberitahuan revisi naskah asli

  • Penulis mengakui bahwa hipotesis awal salah, dan memposting koreksi karena hal itu bisa memengaruhi keputusan finansial pembaca
  • Poin bahwa model lokal cukup mampu untuk tugas coding, lebih dari yang umum diakui, tetap berlaku
  • Namun, rekomendasi untuk membatalkan langganan coding dan membeli MacBook Pro dicabut kembali
  • Penyebab kesalahan adalah mengemukakan klaim tanpa verifikasi empiris
  • Alasan spesifik mengapa hipotesis itu salah

    • Model lokal dapat menangani sekitar 90% tugas pengembangan perangkat lunak, tetapi 10% terakhir adalah yang paling penting, dan untuk itu layak membayar biaya model frontier
    • Pendekatannya diambil dari sudut pandang pengembang hobi, tetapi di lingkungan produksi, perusahaan disarankan menyediakan alat seperti Claude Code kepada karyawan
    • Jika menjalankan alat pengembangan lain yang juga memakan RAM seperti Docker, ukuran model harus diperkecil, dan kinerjanya turun drastis
    • Kesimpulannya, model lokal dapat dipakai sebagai alat pelengkap bagi model frontier atau untuk menurunkan tier langganan, tetapi dalam situasi yang terkait langsung dengan mata pencaharian, nilainya rendah dibanding usaha yang dibutuhkan

Nilai dan kelebihan model lokal

  • Keunggulan terbesar model lokal adalah penghematan biaya; dengan memakai perangkat keras sendiri, tidak perlu membayar biaya langganan cloud
    • Daripada membayar langganan lebih dari $100 per bulan, pengguna bisa berinvestasi pada upgrade perangkat keras untuk menghemat biaya dalam jangka panjang
  • Ada juga kelebihan dari sisi keandalan dan keamanan
    • Tidak terdampak penurunan performa atau pembatasan akses layanan cloud, dan data tidak bocor ke luar
    • Bisa dimanfaatkan juga di lingkungan yang membutuhkan perlindungan kekayaan intelektual (IP) internal perusahaan
    Iklan
  • Keunggulan lainnya adalah selalu bisa digunakan, sehingga tetap berfungsi di lingkungan dengan internet terbatas (pesawat, jaringan aman, dll.)

Struktur memori dan optimasi

  • Menjalankan model lokal menghabiskan memori untuk model itu sendiri dan context window
    • Contoh: model 30B parameter membutuhkan sekitar 60GB RAM
  • Karena context window perlu mencakup codebase, disarankan 64.000 token atau lebih
  • Semakin besar ukuran model, semakin besar juga kebutuhan memori per token
    • Model 80B membutuhkan RAM sekitar 2 kali lebih besar daripada model 30B
  • Penghematan memori dimungkinkan lewat arsitektur Hybrid Attention atau Quantization
    • Saat quantization 16-bit→8-bit, penurunan performa kecil, tetapi quantization KV cache dapat menyebabkan penurunan performa yang lebih besar
Iklan

Pemilihan model dan alat serving

  • Model Instruct cocok untuk alat coding percakapan, sedangkan model Non-instruct cocok untuk autocomplete
  • Alat serving model lokal yang representatif adalah Ollama dan MLX
    • Ollama bersifat umum, mudah diatur, dan menyediakan kompatibilitas OpenAI API
    • MLX khusus Mac dan menawarkan kecepatan pemrosesan token yang lebih tinggi, tetapi pengaturannya lebih rumit
  • Dalam penggunaan nyata, waktu respons token pertama dan kecepatan pemrosesan token per detik adalah metrik penting
    • MLX menunjukkan kecepatan respons sekitar 20% lebih cepat dibanding Ollama

Membangun lingkungan coding lokal

  • Alat coding yang direkomendasikan: OpenCode, Aider, Qwen Code, Roo Code, Continue
    • Semuanya mendukung standar OpenAI API sehingga mudah mengganti model
  • Dalam eksperimen, kombinasi Qwen Code dan model Qwen3-Coder paling stabil
    • Model GPT-OSS memiliki banyak kasus penolakan permintaan
    Iklan
  • Arsitektur unified memory pada MacBook memungkinkan CPU dan GPU berbagi memori, sehingga menguntungkan untuk menjalankan model lokal
  • Setelah memasang MLX, model dapat di-serving sebagai OpenAI-compatible API dengan perintah mlx-lm.server
    • Pilihan model 4B~80B tersedia tergantung kapasitas RAM
  • Pemantauan penggunaan memori itu wajib, dan saat swap memory dipakai, kecepatan turun tajam

Hasil eksperimen dan kesimpulan

  • Hipotesis awal: “Upgrade perangkat keras lebih ekonomis daripada langganan $100/bulan”
    • Kesimpulan yang direvisi: “Tidak”, di lingkungan kerja nyata, alat berbasis langganan tetap lebih efisien
  • Model lokal cocok untuk peran pelengkap, dan memberi efek penghematan biaya bila dipakai bersama tier gratis dari model berperforma tinggi
  • Model Qwen3-Coder memiliki performa sekitar setengah generasi tertinggal dibanding alat komersial
  • Dengan ketersediaan gratis Google Gemini 3 Flash, keekonomian model lokal menurun
  • Ke depan, peningkatan performa dan pengecilan ukuran model lokal diperkirakan terus berlanjut, sehingga tetap menjadi opsi menarik bagi pengembang individual

Pelajaran utama

  • Model lokal unggul dalam penghematan biaya, penguatan keamanan, dan akses offline
  • Namun stabilitas alat, batas memori, dan kompleksitas pengaturan menjadi kendala utama untuk penerapan di dunia kerja
  • Penggunaan bersamaan dengan model cloud adalah pendekatan yang paling realistis
  • Nilai utama model lokal bukan sebagai pengganti, melainkan sebagai pelengkap

3 komentar

 
ahwjdekf 2025-12-23

Itulah kenapa MacPpa jadi masalah.

 
skageektp 2025-12-24

Masalah yang jauh

 
GN⁺ 2025-12-22
Komentar Hacker News
  • Saya melihat tulisan ini dari sudut pandang developer hobi. Maksudnya orang yang mengerjakan proyek pribadi, bukan lingkungan produksi
    Belakangan ini banyak orang membayar langganan tool coding seharga $100~$200 untuk penggunaan pribadi, padahal kebanyakan sebenarnya tidak perlu
    Hanya dengan paket OpenAI atau Anthropic seharga $20/bulan pun sudah bisa melangkah cukup jauh. Terutama OpenAI, karena tarif Codex jauh lebih murah, jadi nilai per biayanya bagus
    Titik untuk mulai mengeluarkan lebih dari $100 biasanya saat batas paket $20 sudah habis dan mulai terasa menghambat. Saat itu tinggal nilai sendiri lalu upgrade

    • Saya memakai model lokal dan model gratis dari OpenRouter. Biaya model AI saya per bulan bahkan tidak sampai $1
      Bukan karena pelit, tetapi karena saya pikir turunnya biaya inferensi pada akhirnya akan membuat semuanya jadi seperti ini
      Saya mengotomatiskan pencarian dokumentasi yang dulu dilakukan manual dengan perintah seperti $ what-man "pertanyaan". Saya membuat DB embedding manpage secara lokal agar LLM bisa mencari dokumen lalu merangkumnya
      Karena saya tidak menyuruh model untuk ‘berpikir’, melainkan hanya menangani pemrosesan teks, hasilnya sangat stabil
      Penulis dokumentasi sering cenderung menyembunyikan flag penting jauh di dalam, dan pendekatan ini menyelesaikan masalah itu
    • Paket $20/bulan akan habis batasnya hanya dalam 10~20 menit saat menjelajahi codebase besar
      Tapi saya kebanyakan hanya memintanya melakukan pencarian kode atau refactoring, jadi itu sudah cukup
      Sebaliknya, kalau menyuruh LLM menulis kode secara langsung, token akan habis dalam sekejap. Kalau mencoba gaya development ala “vibecoding”, pemborosan tokennya sangat parah
      Untuk aplikasi React sederhana masih oke, tetapi begitu masuk ke wilayah yang tidak ada di data latihnya, terlihat model terus kebingungan
    • Saya juga memakai tool seperti ini untuk proyek pribadi. Batas Claude Code habis hanya dalam satu jam, tetapi tetap sepadan
      Saya tidak ingin memberi uang ke OpenAI
    • Saya juga memakai Claude Max untuk coding pribadi. Paket $20 cepat sekali habis, jadi saya upgrade
      Proyeknya memang belum menghasilkan uang, tapi saya menganggapnya sebagai investasi belajar
    • OpenAI Codex di lingkungan saya hanya membuang token. Bahkan tugas sederhana seperti ganti versi Node pun bisa masuk loop
      Sebaliknya, Claude sangat produktif
      Dan saya rasa kebanyakan orang cukup pintar untuk upgrade hanya saat memang perlu. Tidak harus mulai dari paket mahal
      Lagi pula topik tulisan ini adalah model lokal, jadi saran soal paket langganan terasa agak melenceng
  • Saya penasaran dengan perhitungan yang mengarah pada anggapan bahwa laptop seharga $5.000 akan bersaing dengan model SOTA selama lima tahun ke depan
    Dalam praktiknya, menurut saya ilusi itu runtuh hanya dalam dua hari. Saya juga pernah melakukan hal serupa karena terpesona hardware mengilap
    Pada akhirnya model lokal lebih cocok untuk hobi atau obsesi privasi. Kalau benar-benar butuh privasi, menurut saya menyewa server lebih baik

    • Meski begitu, saya tetap menghormati orang yang ingin mencoba sendiri. Ini mengingatkan pada budaya hacker era 80~90-an
    • Dengan MacBook Pro 2023 saya (M2 Max), saya masih bisa menjalankan model kelas SOTA dari 1,5 tahun lalu secara lokal
      Memang bukan perbandingan yang sempurna, tetapi melihat kecepatan perkembangan model lokal, ini cukup berarti
    • Hardwarenya tetap sama, tetapi model makin efisien, jadi menurut saya biaya berlangganan model online selama lima tahun kurang lebih mirip dengan membeli laptop
      Toh laptop memang diperlukan, jadi lebih baik membeli spesifikasi yang cukup untuk model lokal
    • Benarkah begitu? Menurut analisis terbaru Epoch.ai, GPU konsumen mendekati performa Frontier AI dalam waktu satu tahun. Menurut saya model open-weight jangan diremehkan
    • Saya juga setuju. Untuk coding, model yang hanya satu tingkat lebih lambat dari SOTA pun sulit saya toleransi
  • Menarik bahwa penulis di tulisan ini mengakui sendiri asumsi yang keliru
    Tetapi premis “memakai Mac selama 5 tahun” terasa tidak realistis. Kecepatan perkembangan model terlalu tinggi
    Dalam lingkungan perusahaan, mungkin diperlukan mesin kelas tinggi seperti Mac Studio 512GB RAM
    Pembahasan terkait juga sempat muncul di thread sebelumnya

  • Saya agak kecewa karena tulisan itu hanya menyebut MLX dan Ollama, sementara LM Studio tidak dibahas
    LM Studio mendukung model MLX dan GGUF sekaligus, serta menyediakan GUI macOS yang lebih kaya fitur dibanding Ollama
    Katalog modelnya juga aktif dipelihara di halaman resmi

    • Menurut saya LM Studio jauh lebih baik daripada Ollama. Aneh saja kalau tidak lebih populer
    • Rasanya agak seperti tulisan bersponsor
    • Perlu disebut bahwa LM Studio bukan open source. Alasan memakai model lokal adalah kepercayaan, jadi kalau aplikasinya tertutup maknanya berkurang
    • ramalama.ai juga layak disebut bersama itu
    • LM Studio secara internal memakai llama.cpp
  • Di tulisan itu disebut “menjalankan model 80B di RAM 128GB”, lalu menyarankan pengguna RAM 8GB untuk mencoba model 4B; itu terasa agak aneh
    Sama sekali tidak ada pembahasan tentang penurunan kualitas

    • Ini seperti tulisan “cara swasembada di lahan 4 acre” lalu bilang itu bisa diganti dengan satu pot tanaman. Konyol sekali
  • Dengan paket Cursor $20/bulan, saya sudah menjalankan 260 juta token. Itu langganan berbayar pertama saya, dan saya tidak paham pendekatan di tulisan ini
    Jujur saja rasanya ada sesuatu yang hilang, dan saya masih punya banyak pertanyaan

  • Karena depresiasi Mac lebih besar daripada biaya langganan bulanan, logika penghematan biayanya menurut saya lemah
    Bisa saja ada alasan lain untuk memakai model lokal, tetapi dari sisi efisiensi biaya nilainya rendah
    Selain itu, risikonya hardware cepat mentok juga besar. Pada akhirnya logika yang sama juga berlaku jika di tool online kita memakai model kecil

  • Model terbaru sekalipun (Opus 4.5, GPT 5.2) sekarang baru nyaris bisa mengikuti persoalan yang saya lemparkan
    Sepertinya masih butuh 1~2 tahun lagi sebelum model lokal mencapai level yang tidak membuang waktu developer

    • Model dilatih pada data yang sudah ada, jadi semakin jauh dari data itu, performanya turun drastis
      Dalam situasi seperti itu prompt harus dibuat lebih spesifik, dan itu justru memperlambat proses
  • MacBook Pro spek penuh terlalu mahal dibanding daya komputasinya. Apple khususnya mematok harga RAM terlalu tinggi
    Dengan spesifikasi yang sama, desktop Linux bisa dirakit dengan setengah harga
    Jika portabilitas penting, laptop non-Apple juga merupakan alternatif yang lebih murah

    • Tetapi kalau butuh memori terpadu (unified RAM), pilihan memang terbatas
      Di Linux ada seri NVidia Spark atau AMD Ryzen AI, tetapi model dengan RAM 128GB jarang
      Upgrade juga sulit dan harganya tinggi
    • Apakah ada sistem x86 yang mendukung memori terpadu 512GB?
      Sebenarnya itu keunggulan utama Mac. Sekarang bahkan lebih dari 512GB pun dimungkinkan dengan Exo
  • Saya tidak menjalankan model lokal di PC development saya. Menurut saya lebih baik di mesin terpisah
    Suara kipas juga berkurang, dan performa PC kerja tidak ikut terpengaruh
    Untuk LLM, latensi beberapa ratus ms bukan masalah. Kecuali sedang bekerja offline saat bepergian, tidak banyak alasan untuk memaksakannya

    • Belakangan ini perangkat seperti Mac Studio atau Nvidia DGX cukup senyap dan mudah diakses, jadi kekhawatiran seperti ini makin berkurang