17 poin oleh GN⁺ 2026-04-07 | 1 komentar | Bagikan ke WhatsApp
  • Gemma 4 mendukung inferensi berperforma tinggi bahkan pada hardware berspesifikasi rendah dengan arsitektur mixture-of-experts yang hanya mengaktifkan sebagian parameter
  • LM Studio 0.4.0 memperkenalkan Headless CLI (llmster) baru, sehingga model dapat diunduh, dimuat, diajak chat, dan dijalankan sebagai server API tanpa aplikasi desktop
  • Melalui API yang kompatibel dengan OpenAI dan Anthropic, Gemma 4 dapat disajikan sebagai server lokal, dan Claude Code bisa dipakai sebagai asisten coding sepenuhnya offline
  • Performa dan efisiensi memori dapat diatur lewat tuning hardware yang rinci seperti panjang konteks, GPU offloading, dan permintaan paralel
  • Inferensi lokal berbasis model MoE memungkinkan review kode cepat dan pengujian prompt tanpa biaya API, serta semakin menonjol sebagai teknologi inti untuk membangun lingkungan AI offline bagi developer

Menjalankan Google Gemma 4 Secara Lokal — Integrasi Headless CLI baru dari LM Studio dengan Claude Code

  • Mengapa perlu menjalankan secara lokal

    • API AI berbasis cloud memiliki keterbatasan seperti biaya, pembatasan kecepatan, privasi data, dan latensi jaringan
    • Untuk pekerjaan iteratif cepat seperti review kode, penulisan draft, dan pengujian prompt, menjalankan model secara lokal lebih menguntungkan
    • Menjalankan secara lokal menawarkan kelebihan berupa biaya API nol, tidak ada data yang dikirim keluar, dan selalu tersedia
    • Gemma 4** menggunakan arsitektur mixture-of-experts (MoE), sehingga dari model 26B hanya 4B parameter yang aktif**, memungkinkan performa tinggi bahkan pada hardware berspesifikasi rendah

      • Pada MacBook M4 Pro (48GB), tercatat kecepatan generasi 51 token per detik, meski di dalam Claude Code sedikit lebih lambat
  • Keluarga model Gemma 4

    • Google merilis Gemma 4 dalam 4 keluarga model, dioptimalkan untuk berbagai jenis hardware
    • Seri E (E2B, E4B) menggunakan Per-Layer Embeddings dan mendukung input audio (pengenalan suara dan terjemahan)
    • Model dense 31B mencatat performa MMLU Pro 85.2% dan AIME 2026 89.2%
    • Model 26B-A4B hanya mengaktifkan 8 dari 128 expert (3.8B parameter), sehingga berjalan dengan kualitas kelas 10B pada biaya kelas 4B
    • Dengan MMLU Pro 82.6%, AIME 88.3%, dan Elo 1441, model ini mendekati model dense 31B dan bersaing dengan model 400B+
    • Cocok untuk inferensi lokal berkat dukungan konteks 256K, input visual, function calling, dan pengaturan mode penalaran
  • Perubahan utama di LM Studio 0.4.0

    • Dengan hadirnya mesin inferensi mandiri bernama llmster,semua fungsi kini bisa dijalankan sepenuhnya lewat CLI tanpa aplikasi desktop

      • Melalui CLI lms, pengguna bisa mengunduh model, memuatnya, mengobrol, dan menjalankan server
      • Fitur utama:
      • daemon llmster: memuat model dan mengelola inferensi di latar belakang
      • pemrosesan permintaan paralel: menangani banyak permintaan sekaligus dengan continuous batching
      • Stateful REST API: menjaga riwayat percakapan melalui endpoint /v1/chat
      • integrasi MCP: dukungan lokal untuk Model Context Protocol
  • Instalasi dan unduhan model

    • Perintah instalasi:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      
    • Menjalankan daemon: lms daemon up
    • Memperbarui runtime: lms runtime update llama.cpp, lms runtime update mlx
    • Mengunduh model Gemma 4 26B: lms get google/gemma-4-26b-a4b
    • Kuantisasi default adalah Q4_K_M (17.99GB)
    • Setelah diunduh, muat dengan lms load google/gemma-4-26b-a4b
  • Manajemen model lokal

    • Melihat daftar model terpasang: lms ls
    • Contoh output mencakup banyak model MoE seperti Gemma 4, Qwen 3.5, dan GLM 4.7 Flash
    • Model MoE memungkinkan inferensi yang efisien karena hanya sebagian parameter aktif yang digunakan
  • Menjalankan percakapan dan performa

    • Memulai chat: lms chat google/gemma-4-26b-a4b --stats
    • Contoh output:
      Tokens/Second: 51.35
      Time to First Token: 1.551s
      
    • 51 tok/detik dengan respon awal 1,5 detik cukup cepat untuk penggunaan interaktif
  • Mengecek status model dan memori

    • Melihat model yang sedang dimuat: lms ps
    • Contoh: penggunaan memori 17.99GB, konteks 48K, 2 permintaan paralel, TTL 1 jam
    • Item penting yang bisa dilihat dari output JSON (lms ps --json | jq):
      • "architecture": "gemma4"
      • "quantization": {"name": "Q4_K_M", "bits": 4}
      • "vision": true, "trainedForToolUse": true
      • "maxContextLength": 262144, "parallel": 2
  • Estimasi memori berdasarkan panjang konteks

    • Opsi --estimate-only memungkinkan prediksi kebutuhan memori
    • Model dasar membutuhkan sekitar 17.6GiB, lalu bertambah 3~4GiB setiap kali konteks digandakan
    • Untuk konteks 48K dibutuhkan sekitar 21GiB, sedangkan pada 256K mencapai 37.48GiB
    • Contoh perintah:
      lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
      
    • Hubungan linear antara panjang konteks dan memori berguna untuk perencanaan kapasitas
  • Tuning pemuatan sesuai hardware

    • Panjang konteks

      • Atur dalam batas memori yang tersedia setelah mengurangi penggunaan OS (4~6GB)
      • Contoh: lms load google/gemma-4-26b-a4b --context-length 128000
    • GPU offloading

      • Apple Silicon memakai arsitektur unified memory, sehingga --gpu=1.0 bisa memanfaatkan GPU sepenuhnya
      • Pada sistem NVIDIA, bisa dibagi seperti --gpu=0.5 sesuai batas VRAM
    • Permintaan paralel

      • Continuous batching memungkinkan banyak permintaan diproses bersamaan
      • Di GUI, atur Max Concurrent Predictions (default 4)
      • Untuk Gemma 4, konfigurasi yang cocok pada sistem 48GB adalah konteks 48K dan 2 permintaan paralel
    • TTL auto-unload

      • --ttl 1800 akan melepas model otomatis setelah 30 menit tidak aktif
      • Default-nya 1 jam, dan bisa dinonaktifkan dengan 0 atau -1
    • Menyimpan default per model

      • Di aplikasi desktop, simpan default GPU, konteks, dan Flash Attention melalui My Models → ikon pengaturan
    • Speculative Decoding

      • Pada model MoE kurang efisien, sehingga disarankan dinonaktifkan untuk Gemma 4
      • Hasil uji pada Mixtral menunjukkan peningkatan 39% untuk tugas coding, tetapi penurunan 54% untuk tugas matematika
    • Flash Attention

      • Membantu menghemat memori KV cache sehingga mendukung konteks panjang
      • Pada Apple Silicon, mengaktifkannya dapat menghemat memori
  • Aplikasi desktop LM Studio

    • GUI memvisualisasikan status server, pemuatan model, endpoint API, dan aliran log
    • Termasuk protokol Anthropic (POST /v1/messages)
    • Fitur vision memungkinkan analisis gambar
    • Contoh: saat menganalisis gambar Timezone Scheduler, model menghasilkan 504 token pada 54.51 tok/detik
    • Hasil monitoring sistem:
      • penggunaan memori 46.69GB/48GB, swap 27.49GB
      • utilisasi GPU 90%, CPU 91°C, GPU 92°C
      • daya 23.56W (CPU 11.06W, GPU 13.32W)
    • Berkat arsitektur unified memory, tidak perlu menyalin data antara CPU dan GPU
  • Menyajikan model sebagai server API

    • Menjalankan server: lms server start
    • API kompatibel OpenAI: http://localhost:1234/v1
    • Endpoint kompatibel Anthropic: POST /v1/messages
    • Mengubah port: --port 8080
    • Dengan JIT model loading, model dimuat otomatis saat ada permintaan lalu di-unload otomatis setelah TTL habis
    • Aliran log real-time: lms log stream --source model --stats
    • Bisa diakses dari perangkat lain dalam jaringan dan mendukung autentikasi token API
  • Integrasi dengan Claude Code

    • Melalui endpoint yang kompatibel dengan Anthropic, Claude Code dapat dijalankan memakai model lokal
    • Tambahkan fungsi claude-lm ke ~/.zshrc:
      export ANTHROPIC_BASE_URL=http://localhost:1234
      export ANTHROPIC_MODEL="gemma-4-26b-a4b"
      ...
      claude "$@"
      
    • Semua pemanggilan model Claude Code (Opus, Sonnet, Haiku) diarahkan ke Gemma 4
    • Disiapkan dengan konteks 48K, batas output 8K token, dan lingkungan lokal saja
    • Saat menjalankan claude-lm, pengguna bisa memakai asisten coding yang sepenuhnya offline
    • Meski lebih lambat dibanding cloud, ini cocok untuk review kode, perbaikan kecil, dan pekerjaan eksploratif
  • Pelajaran utama

    • Model MoE adalah inti inferensi lokal: Gemma 4 26B-A4B memberi kualitas kelas 10B dengan biaya kelas 4B
    • Daemon headless memungkinkan workflow berbasis CLI sepenuhnya
    • Panjang konteks adalah variabel utama dalam penggunaan memori
    • --estimate-only membantu mencegah OOM
    • Endpoint kompatibel Anthropic memungkinkan Claude Code berjalan sepenuhnya offline secara lokal
  • Keterbatasan

    • lms chat tidak menampilkan nama model secara langsung
    • Konteks default 48K cukup konservatif dan disarankan diperluas jika memori masih longgar
    • Menjalankan Claude Code secara lokal belum bisa sepenuhnya menggantikan Anthropic API, sehingga ada batasan untuk pekerjaan berskala besar
    • Pada sistem 48GB, dapat terjadi tekanan memori dan penggunaan swap, sehingga 64GB atau lebih disarankan
  • Langkah berikutnya

    • Akan ada uji perbandingan dengan Qwen 3.5 35B, GLM 4.7 Flash, Nemotron 3 Nano, dan lainnya
    • Ringkasan prosedur menjalankan:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      lms daemon up
      lms get google/gemma-4-26b-a4b
      lms chat google/gemma-4-26b-a4b --stats
      
    • Untuk integrasi Claude Code, tambahkan fungsi claude-lm lalu jalankan claude-lm
    • Dapat dimanfaatkan untuk membangun workflow AI lokal serta integrasi ke web app dan lingkungan developer

1 komentar

 
GN⁺ 2026-04-07
Komentar Hacker News
  • Bisa menjalankan LLM lokal langsung dengan llama.cpp server dan memakainya di Claude Code atau agen CLI lain
    Ia merangkum panduan konfigurasi lengkap untuk menguji LLM open-weight terbaru seperti Gemma4 di MacBook M1 Max 64GB
    Model 26BA4B terasa paling menarik di perangkat keras ini, dan menunjukkan kecepatan generasi token (40 tok/s) yang hampir dua kali lebih cepat daripada Qwen3.5 35BA3B
    Namun hasil benchmark tau2 lebih rendah daripada varian Qwen (68% vs 81%), jadi diperkirakan kurang cocok untuk tugas kompleks yang berpusat pada tool

    • Penasaran apakah ada masalah benturan spesifikasi antara Anthropic dan OpenAI di Claude Code
      Saya memakai mlx_vlm dan vMLX, tetapi di Claude Code muncul error 400 Bad Request
      Ingin bertanya apakah di llama-server tidak ada masalah seperti itu
  • Rasanya model lokal kini sudah melampaui sekadar “bisa dipakai” dan masuk ke tahap nyaman digunakan
    Terutama alur headless LM Studio yang sangat mengesankan. Ini memungkinkan inferensi lokal dipakai di tool nyata
    Saya sedang mengembangkan agen coding CLI open source bernama cloclo, yang mendukung berbagai backend seperti LM Studio, Ollama, vLLM, Jan, dan llama.cpp
    Model lokal makin mendekati kombinasi ideal: pribadi dan murah untuk pemakaian harian, sementara model cloud dipakai untuk pekerjaan berperforma tinggi

    • Penasaran apa perbedaan cloclo dengan pi-mono
  • Inti pembahasannya bukan Gemma 4 itu sendiri, melainkan bahwa harness dan model kini terpisah sepenuhnya
    Claude Code, OpenCode, Pi, dan Codex semuanya bisa bekerja dengan backend apa pun
    Artinya, agen coding makin menjadi lapisan umum, dan fokus persaingan bergeser ke kualitas model serta biaya
    Ini kabar baik bagi pengguna, dan ancaman bagi perusahaan yang selama ini bergantung pada harness

    • Saya justru merasa sebaliknya. Yang makin menjadi umum adalah modelnya, sementara harness dan tooling menjadi kunci peningkatan performa yang sesungguhnya
      Misalnya, dalam tulisan “Improving 15 LLMs at Coding in One Afternoon”, disebutkan bahwa hanya dengan mengganti harness saja sudah ada peningkatan besar
    • Sebenarnya Claude Code maupun OpenCode juga sudah bisa langsung dihubungkan ke endpoint HTTP lokal
  • Bisa dijalankan dengan sederhana lewat perintah ollama launch claude --model gemma4:26b

    • Jika ukuran context window tidak diperbesar, fitur pemanggilan tool tidak akan berfungsi
    • Mengejutkan bahwa ini bisa berjalan sesederhana itu hanya dengan memasang ollama dan claude
    • Namun dalam kasus saya tidak berhasil. claude masuk ke loop tak berujung dan tidak merespons
      Nemotron, glm, dan qwen 3.5 berjalan baik, tetapi hanya gemma yang bermasalah
  • Pendekatan ini tampaknya juga berguna untuk otomatisasi pengujian software web
    Selenium atau Puppeteer mudah sekali rusak pengujiannya hanya karena desain web berubah sedikit
    Sebaliknya, model seperti ini tampaknya bisa beradaptasi terhadap perubahan sehingga memungkinkan pengujian yang lebih fleksibel
    Terutama karena tampaknya model kecil pun sudah cukup memadai untuk ini

  • MoE sebenarnya tidak menghemat (V)RAM
    Semua bobot harus tetap berada di memori, hanya saja dalam satu inferensi yang dipakai cuma sebagian
    Jadi tok/s memang meningkat, tetapi penggunaan VRAM tetap sama

    • Saya juga sempat bingung soal ini. Expert yang tidak aktif memang melewati komputasi, tetapi tetap dimuat di memori
      Materi visualisasi ini membantu untuk memahaminya
    • Di beberapa engine inferensi, sebagian expert bisa di-offload ke CPU RAM
      Misalnya, MoE 35B parameter bisa dijalankan dengan kombinasi GPU 12GB VRAM + RAM 16GB
    • Tidak semua bobot harus berada di memori secara bersamaan
      Bagian yang diperlukan bisa dimuat bergantian dari RAM, disk, jaringan, dan sebagainya
      MoE mengurangi jumlah data yang perlu diganti-muat pada langkah inferensi berikutnya
  • Saya memakai Claude Code sebagai antarmuka utama untuk pekerjaan berulang di pipeline data
    Khususnya untuk menormalisasi pengungkapan regulasi pemerintah (XBRL) dan mengeksposnya lewat REST serta MCP
    Bagian yang menarik dari MCP adalah bahwa alih-alih memanggil klien secara langsung, kita mendefinisikan tool secara deklaratif dan model memutuskan kapan harus memanggilnya
    Misalnya, kueri seperti “bandingkan tren leverage perusahaan ini selama 10 tahun dengan rata-rata industri” otomatis dipecah menjadi urutan pemanggilan tool yang sesuai
    Hanya saja, dalam penggunaan interaktif MCP, latensi jauh lebih sensitif
    Respons 2 detik masih oke untuk skrip, tetapi merusak alur percakapan
    Karena itu saya menyimpan tabel yang sering dipakai di memori dan berhasil mencapai respons di bawah 100ms
    Penasaran apakah orang lain juga mengalami ambang batas latensi seperti ini

    • Saya juga merasa MCP berguna, tetapi penggunaan token bisa menjadi besar
      Dalam implementasi sederhana, bisa menghabiskan puluhan ribu token lebih banyak untuk fungsi yang sama
      Ada tulisan penjelasan dari Anthropic, tetapi materinya sudah agak lama
    • Dalam pengalaman saya, 300~500ms per pemanggilan tool adalah batas atas yang masih terasa alami
      Di atas itu, chain multilangkah mulai terasa lambat, dan model menambahkan penalaran yang tidak perlu sehingga konteks membengkak
      Selain caching, strategi mengurangi jumlah panggilan bolak-balik dengan mengembalikan beberapa data sekaligus juga efektif
  • Membagikan cara menyiapkan Gemma 4 26B di macOS sebagai inferensi lokal untuk Claude Code

    • Menurut saya ini rangkuman yang sangat bagus
  • Ke depan, mungkin laboratorium AI besar akan mengoperasikan LLM lokal secara paralel untuk mengurangi beban cloud, lalu hanya komputasi berat yang diproses di cloud

    • Tetapi ada pertanyaan apakah itu tidak akan bertentangan dengan model bisnis mereka
  • Penasaran seberapa baik model Gemma 4 bekerja dalam tugas coding bergaya agen, dan bagaimana kesan pemakaian nyatanya