17 poin oleh GN⁺ 14 hari lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Gemma 4 mendukung inferensi berperforma tinggi bahkan pada hardware berspesifikasi rendah dengan arsitektur mixture-of-experts yang hanya mengaktifkan sebagian parameter
  • LM Studio 0.4.0 memperkenalkan Headless CLI (llmster) baru, sehingga model dapat diunduh, dimuat, diajak chat, dan dijalankan sebagai server API tanpa aplikasi desktop
  • Melalui API yang kompatibel dengan OpenAI dan Anthropic, Gemma 4 dapat disajikan sebagai server lokal, dan Claude Code bisa dipakai sebagai asisten coding sepenuhnya offline
  • Performa dan efisiensi memori dapat diatur lewat tuning hardware yang rinci seperti panjang konteks, GPU offloading, dan permintaan paralel
  • Inferensi lokal berbasis model MoE memungkinkan review kode cepat dan pengujian prompt tanpa biaya API, serta semakin menonjol sebagai teknologi inti untuk membangun lingkungan AI offline bagi developer

Menjalankan Google Gemma 4 Secara Lokal — Integrasi Headless CLI baru dari LM Studio dengan Claude Code

  • Mengapa perlu menjalankan secara lokal

    • API AI berbasis cloud memiliki keterbatasan seperti biaya, pembatasan kecepatan, privasi data, dan latensi jaringan
    • Untuk pekerjaan iteratif cepat seperti review kode, penulisan draft, dan pengujian prompt, menjalankan model secara lokal lebih menguntungkan
    • Menjalankan secara lokal menawarkan kelebihan berupa biaya API nol, tidak ada data yang dikirim keluar, dan selalu tersedia
    • Gemma 4** menggunakan arsitektur mixture-of-experts (MoE), sehingga dari model 26B hanya 4B parameter yang aktif**, memungkinkan performa tinggi bahkan pada hardware berspesifikasi rendah

      • Pada MacBook M4 Pro (48GB), tercatat kecepatan generasi 51 token per detik, meski di dalam Claude Code sedikit lebih lambat
  • Keluarga model Gemma 4

    • Google merilis Gemma 4 dalam 4 keluarga model, dioptimalkan untuk berbagai jenis hardware
    • Seri E (E2B, E4B) menggunakan Per-Layer Embeddings dan mendukung input audio (pengenalan suara dan terjemahan)
    • Model dense 31B mencatat performa MMLU Pro 85.2% dan AIME 2026 89.2%
    • Model 26B-A4B hanya mengaktifkan 8 dari 128 expert (3.8B parameter), sehingga berjalan dengan kualitas kelas 10B pada biaya kelas 4B
    • Dengan MMLU Pro 82.6%, AIME 88.3%, dan Elo 1441, model ini mendekati model dense 31B dan bersaing dengan model 400B+
    • Cocok untuk inferensi lokal berkat dukungan konteks 256K, input visual, function calling, dan pengaturan mode penalaran
  • Perubahan utama di LM Studio 0.4.0

    • Dengan hadirnya mesin inferensi mandiri bernama llmster,semua fungsi kini bisa dijalankan sepenuhnya lewat CLI tanpa aplikasi desktop

      • Melalui CLI lms, pengguna bisa mengunduh model, memuatnya, mengobrol, dan menjalankan server
      • Fitur utama:
      • daemon llmster: memuat model dan mengelola inferensi di latar belakang
      • pemrosesan permintaan paralel: menangani banyak permintaan sekaligus dengan continuous batching
      • Stateful REST API: menjaga riwayat percakapan melalui endpoint /v1/chat
      • integrasi MCP: dukungan lokal untuk Model Context Protocol
  • Instalasi dan unduhan model

    • Perintah instalasi:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      
    • Menjalankan daemon: lms daemon up
    • Memperbarui runtime: lms runtime update llama.cpp, lms runtime update mlx
    • Mengunduh model Gemma 4 26B: lms get google/gemma-4-26b-a4b
    • Kuantisasi default adalah Q4_K_M (17.99GB)
    • Setelah diunduh, muat dengan lms load google/gemma-4-26b-a4b
  • Manajemen model lokal

    • Melihat daftar model terpasang: lms ls
    • Contoh output mencakup banyak model MoE seperti Gemma 4, Qwen 3.5, dan GLM 4.7 Flash
    • Model MoE memungkinkan inferensi yang efisien karena hanya sebagian parameter aktif yang digunakan
  • Menjalankan percakapan dan performa

    • Memulai chat: lms chat google/gemma-4-26b-a4b --stats
    • Contoh output:
      Tokens/Second: 51.35
      Time to First Token: 1.551s
      
    • 51 tok/detik dengan respon awal 1,5 detik cukup cepat untuk penggunaan interaktif
  • Mengecek status model dan memori

    • Melihat model yang sedang dimuat: lms ps
    • Contoh: penggunaan memori 17.99GB, konteks 48K, 2 permintaan paralel, TTL 1 jam
    • Item penting yang bisa dilihat dari output JSON (lms ps --json | jq):
      • "architecture": "gemma4"
      • "quantization": {"name": "Q4_K_M", "bits": 4}
      • "vision": true, "trainedForToolUse": true
      • "maxContextLength": 262144, "parallel": 2
  • Estimasi memori berdasarkan panjang konteks

    • Opsi --estimate-only memungkinkan prediksi kebutuhan memori
    • Model dasar membutuhkan sekitar 17.6GiB, lalu bertambah 3~4GiB setiap kali konteks digandakan
    • Untuk konteks 48K dibutuhkan sekitar 21GiB, sedangkan pada 256K mencapai 37.48GiB
    • Contoh perintah:
      lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
      
    • Hubungan linear antara panjang konteks dan memori berguna untuk perencanaan kapasitas
  • Tuning pemuatan sesuai hardware

    • Panjang konteks

      • Atur dalam batas memori yang tersedia setelah mengurangi penggunaan OS (4~6GB)
      • Contoh: lms load google/gemma-4-26b-a4b --context-length 128000
    • GPU offloading

      • Apple Silicon memakai arsitektur unified memory, sehingga --gpu=1.0 bisa memanfaatkan GPU sepenuhnya
      • Pada sistem NVIDIA, bisa dibagi seperti --gpu=0.5 sesuai batas VRAM
    • Permintaan paralel

      • Continuous batching memungkinkan banyak permintaan diproses bersamaan
      • Di GUI, atur Max Concurrent Predictions (default 4)
      • Untuk Gemma 4, konfigurasi yang cocok pada sistem 48GB adalah konteks 48K dan 2 permintaan paralel
    • TTL auto-unload

      • --ttl 1800 akan melepas model otomatis setelah 30 menit tidak aktif
      • Default-nya 1 jam, dan bisa dinonaktifkan dengan 0 atau -1
    • Menyimpan default per model

      • Di aplikasi desktop, simpan default GPU, konteks, dan Flash Attention melalui My Models → ikon pengaturan
    • Speculative Decoding

      • Pada model MoE kurang efisien, sehingga disarankan dinonaktifkan untuk Gemma 4
      • Hasil uji pada Mixtral menunjukkan peningkatan 39% untuk tugas coding, tetapi penurunan 54% untuk tugas matematika
    • Flash Attention

      • Membantu menghemat memori KV cache sehingga mendukung konteks panjang
      • Pada Apple Silicon, mengaktifkannya dapat menghemat memori
  • Aplikasi desktop LM Studio

    • GUI memvisualisasikan status server, pemuatan model, endpoint API, dan aliran log
    • Termasuk protokol Anthropic (POST /v1/messages)
    • Fitur vision memungkinkan analisis gambar
    • Contoh: saat menganalisis gambar Timezone Scheduler, model menghasilkan 504 token pada 54.51 tok/detik
    • Hasil monitoring sistem:
      • penggunaan memori 46.69GB/48GB, swap 27.49GB
      • utilisasi GPU 90%, CPU 91°C, GPU 92°C
      • daya 23.56W (CPU 11.06W, GPU 13.32W)
    • Berkat arsitektur unified memory, tidak perlu menyalin data antara CPU dan GPU
  • Menyajikan model sebagai server API

    • Menjalankan server: lms server start
    • API kompatibel OpenAI: http://localhost:1234/v1
    • Endpoint kompatibel Anthropic: POST /v1/messages
    • Mengubah port: --port 8080
    • Dengan JIT model loading, model dimuat otomatis saat ada permintaan lalu di-unload otomatis setelah TTL habis
    • Aliran log real-time: lms log stream --source model --stats
    • Bisa diakses dari perangkat lain dalam jaringan dan mendukung autentikasi token API
  • Integrasi dengan Claude Code

    • Melalui endpoint yang kompatibel dengan Anthropic, Claude Code dapat dijalankan memakai model lokal
    • Tambahkan fungsi claude-lm ke ~/.zshrc:
      export ANTHROPIC_BASE_URL=http://localhost:1234
      export ANTHROPIC_MODEL="gemma-4-26b-a4b"
      ...
      claude "$@"
      
    • Semua pemanggilan model Claude Code (Opus, Sonnet, Haiku) diarahkan ke Gemma 4
    • Disiapkan dengan konteks 48K, batas output 8K token, dan lingkungan lokal saja
    • Saat menjalankan claude-lm, pengguna bisa memakai asisten coding yang sepenuhnya offline
    • Meski lebih lambat dibanding cloud, ini cocok untuk review kode, perbaikan kecil, dan pekerjaan eksploratif
  • Pelajaran utama

    • Model MoE adalah inti inferensi lokal: Gemma 4 26B-A4B memberi kualitas kelas 10B dengan biaya kelas 4B
    • Daemon headless memungkinkan workflow berbasis CLI sepenuhnya
    • Panjang konteks adalah variabel utama dalam penggunaan memori
    • --estimate-only membantu mencegah OOM
    • Endpoint kompatibel Anthropic memungkinkan Claude Code berjalan sepenuhnya offline secara lokal
  • Keterbatasan

    • lms chat tidak menampilkan nama model secara langsung
    • Konteks default 48K cukup konservatif dan disarankan diperluas jika memori masih longgar
    • Menjalankan Claude Code secara lokal belum bisa sepenuhnya menggantikan Anthropic API, sehingga ada batasan untuk pekerjaan berskala besar
    • Pada sistem 48GB, dapat terjadi tekanan memori dan penggunaan swap, sehingga 64GB atau lebih disarankan
  • Langkah berikutnya

    • Akan ada uji perbandingan dengan Qwen 3.5 35B, GLM 4.7 Flash, Nemotron 3 Nano, dan lainnya
    • Ringkasan prosedur menjalankan:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      lms daemon up
      lms get google/gemma-4-26b-a4b
      lms chat google/gemma-4-26b-a4b --stats
      
    • Untuk integrasi Claude Code, tambahkan fungsi claude-lm lalu jalankan claude-lm
    • Dapat dimanfaatkan untuk membangun workflow AI lokal serta integrasi ke web app dan lingkungan developer

Belum ada komentar.

Belum ada komentar.