Menjalankan model lokal kini sudah bagus

(vickiboykis.com)

20 poin oleh GN⁺ 2026-06-17 | 7 komentar | Bagikan ke WhatsApp

Bahkan di lingkungan M2 Mac keluaran 2022, performa LLM lokal sudah cukup baik hingga praktis dipakai untuk pertanyaan pengembangan, pekerjaan kode, dan pengecekan dokumen
Model lokal awalnya lambat, sulit digunakan, dan akurasinya rendah untuk tugas pemrograman, tetapi sejak GPT-OSS frekuensi memeriksa ulang ke model API berkurang
Dengan rilis terbaru lini Gemma 4, loop coding agen lokal berjalan dengan sekitar 75% akurasi dan kecepatan dibanding model frontier
Kombinasi Pi dan LM Studio menjalankan workflow agen melalui endpoint inferensi lokal, artefak model, dan konfigurasi isolasi Docker
Model lokal masih memiliki keterbatasan seperti latensi inferensi, context window kecil, dan batasan hardware, tetapi kita bisa langsung mengamati dan mengubah pemrosesan token, system prompt, kuantisasi, dan harness

Posisi model lokal saat ini

Model lokal awal pada sebagian besar tugas pemrograman terasa lambat, sulit digunakan, dan tidak akurat
Penilaian bahwa model lokal tertinggal jauh pada umumnya benar untuk penggunaan pribadi hingga sebelum rilis GPT-OSS
Standar pribadi untuk “model yang cukup bagus” adalah apakah masih perlu memverifikasi ulang ke model API, dan GPT-OSS adalah model pertama yang sangat mengurangi frekuensi pengecekan itu
Hingga belakangan ini, model lokal terutama dipakai seperti Google yang cepat dan dipersonalisasi untuk pertanyaan pengembangan yang tidak memerlukan informasi terbaru
Setelah rilis terbaru lini Gemma 4, loop coding agen di lokal berjalan dengan sekitar 75% akurasi dan kecepatan dibanding model frontier {p:75}

Model dan lingkungan eksekusi yang digunakan

Berbagai model lokal dijalankan pada M2 Mac keluaran 2022 dengan RAM 64GB dan penyimpanan 1TB
- Model yang digunakan antara lain Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder
Konfigurasi eksekusi sempat melalui raw llama.cpp, Open WebUI, llama-cpp-python, Ollama, llamafiles, dan LM Studio
Model lokal default yang dipakai adalah implementasi gemma-4-26b-a4b di LM Studio

Contoh pekerjaan agen lokal di dunia nyata

Sebuah notebook di-refactor menjadi repositori Python script dengan 5~6 modul
Modul tersebut di-lint agar menggunakan generic type hint sesuai standar PEP 585
Pengaturan lokal juga dipakai untuk menyunting tulisan blog, menulis unit test, dan menyiapkan konfigurasi awal repositori model two-tower untuk rekomendasi
Repositori model two-tower yang dibuat agen dari keadaan kosong memang masih dasar, tetapi sudah melampaui hal yang tahun lalu terasa mungkin
Semua workflow agen dijalankan di dalam container Docker dengan hak akses eksekusi yang dibatasi

Penggunaan sumber daya dan model kecil terbaru

Tugas yang dijalankan lebih mirip Google yang dipersonalisasi atau pencarian dokumentasi daripada pekerjaan yang benar-benar terobosan
Saat bekerja, penggunaan GPU dan RAM membesar dan K-V cache meningkat hingga 64GB RAM
Bahkan pekerjaan sederhana seperti ini tidak mungkin dilakukan dengan model lokal hanya 6 bulan lalu
Gemma-4-12b-qat sudah mengesankan dari sisi rasio ukuran terhadap performa sejak segera setelah rilis
Arsitektur model memunculkan pertanyaan tentang kompromi arsitektural apa yang diperlukan saat ada batasan performa dan biaya

Konfigurasi menjalankan model agen lokal

Untuk menjalankan alur agen lokal, dibutuhkan mesin inferensi model lokal, harness agen, dan artefak model lokal
Harness harus dikonfigurasi agar mengarah ke endpoint inferensi lokal, dan artefak model yang diunduh harus disajikan melalui mesin inferensi
Konfigurasi lokal saat ini menggunakan Pi sebagai harness agen dan LM Studio sebagai server inferensi
Pengaturan ini mengikuti panduan menyiapkan coding agen Gemma 4 dengan Pi dan LM Studio dengan beberapa perubahan
- Alih-alih Gemma 26B A4B seperti di tulisan tersebut, digunakan gemma-4-12b-qat yang lebih baru, lebih kecil, dan lebih cepat, dengan kehilangan akurasi yang tidak besar
- Demi keamanan, semua sesi Pi dijalankan di container Docker dan hanya diberi izin bash sehingga eksekusi kode Python dan penjelajahan web diblokir
- Untuk image terpisah bagi pekerjaan riset, ada rencana untuk mengizinkan curl
- Karena dijalankan di dalam Docker, models.json milik Pi diubah agar Pi dapat berkomunikasi dengan model

Metode isolasi berbasis Docker

Pada konfigurasi Pi, baseUrl diatur ke http://host.docker.internal:1234/v1 dan API diatur sebagai openai-completions
Konfigurasi Docker Compose me-mount models.json, direktori kerja, konfigurasi Pi, dan direktori sesi ke dalam container
Script eksekusi menghubungkan direktori kerja saat ini ke workspace container, dan bila perlu menambahkan file Compose sandbox yang lebih aman
Pi berjalan di repositori yang sedang dikerjakan dan menyalakan Docker, sehingga tidak bisa langsung menghapus file atau direktori di disk fisik
Konfigurasi model json kustom dapat diteruskan ke dalam container, dan ini bekerja cukup baik di lingkungan eksperimen

Keterbatasan yang masih tersisa

Model lokal masih bisa lambat saat inferensi, context window-nya kecil, dan context yang bisa dipakai dibatasi oleh hardware yang tersedia
Ekosistemnya sudah jauh lebih mudah berkat alat seperti LM Studio dan tombol Use This Model dari Hugging Face
Rilis awal kadang mengalami masalah ketidakcocokan prompt template, tetapi masalah seperti ini biasanya ditambal sangat cepat
Masih sulit untuk yakin bahwa ini sudah siap langsung dipakai dalam pengembangan software produksi

Kelebihan model lokal dan ruang eksperimen

Pada model lokal, hampir semua hal bisa diinspeksi, dan proses inferensi token bisa dilihat secara real time
Aliran token input dan output bisa diperiksa langsung
Kita bisa mengubah context window lokal dan melihat bagaimana performanya membaik atau memburuk
Kita bisa menggali bagaimana token diproses di GPU, serta mengubah system prompt dan pengaturan kuantisasi
Model bisa diadu satu sama lain, atau pengaturan di sisi harness bisa diubah lalu diamati, sehingga kemungkinan eksperimen terus meluas

7 komentar

syate 2026-06-18

"Karena ukuran potongan kerja yang alami dan karena model kecil lebih menyukai instruksi yang spesifik, pengguna jadi memahami kode jauh lebih mendetail.
Itu bukan berarti model lokal tidak bisa merangkum struktur proyek atau menemukan bug, melainkan bahwa model lokal memberi imbalan pada cara kerja yang jauh lebih banyak melibatkan campur tangan langsung."

Ada bagian yang mengesankan di komentarnya.
Saya setuju dengan bagian itu.

emptybynature 2026-06-17

Kalau mau bilang model lokal sekarang sudah cukup layak dipakai, berarti ChatGPT harus disebut superintelligent... model lokal masih sangat jauh. Menurut standar saya, supaya model lokal bisa dibilang layak dipakai, minimal harus memasang 4 RTX 5090 dan menjalankan model kelas 100B ke atas, baru "lumayan" bisa dipakai.

GN⁺ 2026-06-17

Pendapat di Lobste.rs

Untuk alur kerja saat ini, saya belum tentu ingin memakai alat seperti ini, tetapi keluhan terbesar saya berasal dari sentralisasi, dan menurut saya dampaknya juga meluas ke area seperti lingkungan, privasi, dan distribusi kekuasaan
Jadi, menyenangkan melihat bahwa model yang bisa di-host secara lokal benar-benar makin bagus
- Ke depannya, saya rasa arahnya memang ke sana. Tidak ada yang benar-benar ingin mengirim semua datanya ke penyedia layanan, dan kenaikan harga maupun apakah sebuah model tetap tersedia sepenuhnya bergantung pada pihak penyedia
  Seperti yang terlihat dari kasus Fable dengan Anthropic, ada risiko nyata menjadi petani digital atas kemauan sendiri
  Jika model lokal dan coding harness terus membaik, alasan untuk menyewa model dari penyedia akan makin berkurang, bahkan jika performa keseluruhan model lokal masih lebih rendah. Misalnya, banyak orang memakai DeepSeek alih-alih Claude karena sudah cukup berguna dan jauh lebih murah, dan pada titik tertentu untuk model lokal, yang lebih penting bukan lagi apakah kita bisa menyewa model yang lebih baik, melainkan apakah model lokal itu bisa menyelesaikan pekerjaannya
  Peluang untuk mengustomisasi dan men-tuning alat juga besar. Saya belum banyak melihat contoh pembuatan LoRA untuk bahasa tertentu, tetapi di domain yang terbatas, model bisa dibuat jauh lebih efektif, dan pada tahap itu bahkan bisa bekerja lebih baik daripada model umum raksasa
- Model lokal punya perbedaan yang menarik, dan sebagian di antaranya bisa menjadi kelebihan. Daya untuk inferensi kira-kira setara GPU gaming kelas atas, dan itu pun hanya dipakai saat menghasilkan token, biasanya bisa dibatasi sekitar 300W. Jika dipakai sambil membaca dan menulis kode, mungkin hanya sekitar 25% dari hari kerja yang benar-benar dipakai untuk generasi token, jadi daya berkelanjutannya sekitar 75W
  Listrik untuk melatih beberapa model berukuran lokal dalam setahun mungkin cukup kecil hingga terserap sebagai semacam kebisingan latar peradaban industri. Semua data tetap lokal, dan kita tidak perlu terlalu mendorong para pedagang ini
  Model lokal cenderung lebih bodoh, dan justru itu membuat kita tetap lebih dekat dengan pekerjaan. Di Fable, Anda bisa memberi instruksi seperti “isi jalan ini dengan rumah-rumah” lalu keluar banyak McMansion murahan, sedangkan pada Qwen3.6 27B, terasa lebih alami mengatakan “cat empat ruangan ini”. Karena ukuran unit kerja yang alami dan kecenderungan model kecil lebih menyukai instruksi yang spesifik, pengguna jadi memahami kode jauh lebih rinci
  Ini bukan berarti model lokal tidak bisa merangkum struktur proyek atau mencari bug, melainkan bahwa ia memberi imbalan pada gaya kerja yang jauh lebih hands-on. Fable adalah model yang benar-benar membuat kami yakin bahwa kami tamat, dan memang bisa memuntahkan keseluruhan proyek dengan sangat cepat. “McMansion” itu kelihatannya bagus, tetapi atapnya bocor, fondasinya goyah, dan pengerjaannya hanya cukup rapi untuk laku dijual. Tentu saja, kemungkinan besar tetap akan sukses besar di pasar, dan bahkan Fable pada hari terburuknya pun masih lebih baik daripada banyak SaaS enterprise. Tentu saja, kecuali untuk kepatuhan dan keamanan
  Jadi saya menganggap model lokal sebagai alat yang menarik, tetapi saya sama sekali tidak menantikan kekacauan yang akan dihasilkan oleh model frontier generasi berikutnya
Saya penasaran, bagi mereka yang ada di akademia, model lokal dipakai untuk apa. qwen3-coder:30b lumayan untuk penyuntingan LaTeX dan mengajukan pertanyaan atas paper hasil OCR, tetapi saya ingin tahu apakah ada kegunaan lain
- Saya di akademia. Saya tidak memakai agentic coding, dan sama sekali tidak memakai LLM untuk menulis. Saya bahkan curiga sebagian besar editor melarangnya
  Setiap kali mencoba, saya selalu sangat kecewa, dan kerepotan serta kerapuhan menyiapkan pipeline inferensi lokal juga besar. GPU laptop saya terlalu kecil, jadi harus memakai klaster komputasi bersama
  Kadang saya memakai ollama/qwen3-coder atau duck.ai. Biasanya saat saya tidak terpikir kata kunci untuk mencari cara melakukan sesuatu di bahasa atau pustaka yang belum saya kenal, atau untuk tugas yang sangat spesifik yang kurang saya kuasai, seperti regex atau SQL
- Saya memakainya untuk membuat draf awal terjemahan. Saat menyunting terjemahan itu, saya jadi memperbaiki cukup banyak kesalahan di materi kuliah yang sebenarnya mungkin bisa saya temukan tanpa terjemahan, tetapi pada praktiknya tidak saya lihat. Ini terutama relevan ketika mengajar di lingkungan yang tidak monolingual
  Saya juga memakainya untuk membuat draf pertama skrip kecil pribadi atau mini tool dalam sekali jalan. Misalnya, harness yang mengecualikan TikZ dari permintaan terjemahan. Setelah itu tetap perlu debugging, tetapi debugging jauh lebih menyenangkan daripada menulis sendiri bagian-bagian membosankan yang kurang lebih bisa ditebak LLM. Strategi verifikasi bahkan lebih penting daripada kalau ditulis tangan, dan idealnya harus berbentuk “bug yang tersisa akan terlihat cukup jelas saat alat dijalankan”
  Sejujurnya saya terkejut karena Qwen3.6 ternyata tidak seburuk yang saya kira untuk membuat draf solusi contoh bagi soal latihan penulisan bukti yang standar. Saat diedit agar sesuai gaya yang diinginkan, hasilnya bisa terasa seperti kapak bubur / sup batu, tetapi beberapa rumus mungkin tetap bertahan sampai akhir. Pada akhirnya bergantung pada seberapa membosankan pekerjaannya
- Pada dasarnya saya memakainya untuk penyuntingan yang lebih dari sekadar pemeriksaan ejaan/tata bahasa. Atau untuk menulis skrip cepat analisis data, tetapi untuk eksplorasi seperti eksperimen pilot, bukan analisis akhir.

kaboom45 2026-06-17

Saya menjalankan qwen3.6 27b pada PC DDR3+i5 dengan grafis terintegrasi dengan kecepatan 1 token per detik.
Dulu, meski menunggu seperti ini, hasilnya tetap berantakan, tapi sekarang setidaknya sudah keluar sesuatu yang bisa dipakai.
Dibanding 6 bulan lalu yang butuh ukuran kelas 80~120B untuk performa seperti ini, sekarang model kelas 30B saja sudah cukup, dan saya rasa sekitar 1 tahun lagi performa coding setingkat opus4.8 atau gpt5.5 juga bisa kita lihat di 30B.
Kalau begitu, model lokal seperti ini yang memeras 50~70 ribu token per hari pun menurut saya cukup layak dipilih sebagai opsi sekunder

beoks 2026-06-17

Untuk benar-benar menggunakan model lokal, perlu ditunjang perangkat keras yang memadai, tetapi perangkat kerasnya juga terlalu mahal, jadi kecuali ada alasan khusus seperti keamanan, untuk saat ini sepertinya langganan atau pemanggilan API masih lebih hemat biaya.

kaydash 2026-06-17

Untuk agen sih entah bagaimana masih bisa jalan, tapi kalau buat coding agent agak...