Ringkasan pengaturan Ollama dan model Gemma 4 26B di Mac mini (per April 2026)
(gist.github.com/greenstevester)- Ringkasan prosedur untuk mengonfigurasi Ollama dan model Gemma 4 agar berjalan otomatis dan tetap berada di memori pada Mac mini berbasis Apple Silicon
- Dengan Homebrew, Launch Agent, dan variabel lingkungan, model dapat dimuat otomatis bahkan setelah reboot, dan model 8B berjalan stabil dengan penggunaan memori sekitar 9.6GB
- Ollama v0.19 ke atas mendukung backend MLX dan format NVFP4, meningkatkan performa inferensi di lingkungan Apple dan NVIDIA
- Model 26B tidak direkomendasikan karena penggunaan memorinya tinggi, sedangkan model 8B lebih cocok untuk penggunaan nyata
- Melalui API lokal, permintaan OpenAI-compatible Chat Completion dapat dilakukan, sehingga berguna untuk membangun lingkungan layanan LLM yang persisten di Mac mini
Persiapan awal
- Diperlukan Mac mini berbasis Apple Silicon (M1~M5)
- Untuk menjalankan model Gemma 4 (8B), disarankan minimal 16GB unified memory
- Diperlukan lingkungan macOS dengan Homebrew terpasang
Step 1 — Instal Ollama
-
Instal aplikasi Ollama macOS menggunakan Homebrew cask
brew install --cask ollama-app -
Setelah instalasi, Ollama.app ditempatkan di
/Applications/, dan CLI di/opt/homebrew/bin/ollama -
Termasuk pembaruan otomatis dan backend MLX
Step 2 — Jalankan dan periksa Ollama
-
Jalankan aplikasi Ollama
open -a Ollama -
Setelah ikon muncul di menu bar, tunggu inisialisasi server selesai
-
Periksa status berjalan
ollama list
Step 3 — Unduh model Gemma 4
-
Unduh model
ollama pull gemma4 -
Setelah mengunduh sekitar 9.6GB, verifikasi dengan
ollama list -
Model 26B akan menggunakan sebagian besar dari memori 24GB dan menyebabkan respons sistem menurun
- Disarankan memakai model 8B default (kuantisasi Q4_K_M)
Step 4 — Uji model dan cek akselerasi GPU
-
Uji model
ollama run gemma4:latest "Hello, what model are you?" -
Cek status akselerasi GPU
ollama ps- Contoh: rasio CPU/GPU 14%/86%
Step 5 — Atur auto-start dan mempertahankan model
-
5a. Auto-start aplikasi Ollama
- Klik ikon menu bar → aktifkan Launch at Login
- Atau tambahkan manual di System Settings > General > Login Items
-
5b. Auto-preload Gemma 4
-
Setelah Ollama dimulai, buat Launch Agent agar model dimuat otomatis dan dipertahankan setiap 5 menit
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
Muat agen
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
Mengirim prompt kosong tiap 5 menit agar model tetap berada di memori
-
-
5c. Pertahankan model tanpa batas waktu
-
Secara default, model akan di-unload setelah 5 menit tidak aktif
-
Atur agar tetap aktif tanpa batas
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
Tambahkan ke
~/.zshrcagar tetap berlaku setelah reboot
-
Step 6 — Verifikasi konfigurasi
-
Pastikan server Ollama berjalan
ollama list -
Periksa status model yang dimuat ke memori
ollama ps -
Periksa registrasi Launch Agent
launchctl list | grep ollama -
Contoh output yang diharapkan
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
Akses API
-
Endpoint API lokal:
http://localhost:11434 -
Contoh OpenAI-compatible Chat Completion
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
Perintah yang berguna
| Perintah | Deskripsi |
|---|---|
ollama list |
Daftar model yang sudah diunduh |
ollama ps |
Model yang sedang berjalan dan penggunaan memori |
ollama run gemma4:latest |
Menjalankan secara interaktif |
ollama stop gemma4:latest |
Unload model |
ollama pull gemma4:latest |
Memperbarui ke versi terbaru |
ollama rm gemma4:latest |
Menghapus model |
Hapus Ollama dan nonaktifkan auto-start
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Peningkatan utama di Ollama v0.19+ (31 Maret 2026)
-
Backend MLX (Apple Silicon)
- Secara otomatis menggunakan framework Apple MLX untuk meningkatkan kecepatan inferensi
- Chip seri M5 mendukung akselerasi tambahan GPU Neural Accelerator
- Chip M4 ke bawah juga mendapat peningkatan performa umum berbasis MLX
-
Format NVFP4 (NVIDIA)
- Melalui format NVFP4, bandwidth memori dan ruang penyimpanan dapat dihemat sambil menjaga akurasi
- Kompatibel dengan model yang dibuat menggunakan alat optimasi model NVIDIA
-
Peningkatan caching (coding dan tugas agent)
- Penggunaan memori berkurang: efisiensi meningkat lewat reuse cache antar percakapan
- Checkpoint cerdas: mengurangi throughput prompt dan meningkatkan kecepatan respons
- Smart cache eviction: mempertahankan prefiks umum untuk meningkatkan efisiensi pada pekerjaan bercabang
Catatan tambahan
- Model Gemma 4 (8B) menggunakan sekitar 9.6GB memori
- Pada Mac mini 24GB, sekitar 14GB dapat tetap tersedia
- Model 26B menggunakan sekitar 17GB dan dapat menyebabkan swap sistem serta respons menurun
- Model 8B memberikan performa yang stabil
1 komentar
Komentar Hacker News
Jika ini pertama kalinya Anda memakai model open weight tepat setelah rilis, perlu diketahui bahwa implementasi awal dan quantization selalu punya bug
Karena tiap proyek terburu-buru ingin mendukungnya pada hari peluncuran, hasilnya bisa saja tidak benar
Sudah ditemukan beberapa masalah pada implementasi tokenizer, dan quantization yang memakai imatrix juga bisa bermasalah
Dalam beberapa minggu ke depan akan banyak muncul posting seperti “tool calling tidak jalan jadi modelnya kacau”. Padahal yang terjadi adalah mereka memakai implementasi yang rusak
Jika ingin memakai model cutting-edge, Anda harus siap sering memperbarui inference engine, dan mengunduh ulang versi quantization setiap kali berubah
Karena ada persaingan untuk mengejar hari rilis, pendekatannya sering seperti “kalau token output sudah keluar langsung kirim”, jadi verifikasi akurasi jadi urusan belakangan
Saya cukup sering mengalami masalah tool calling tidak berjalan, tapi tidak tahu apakah ini masalah model atau masalah ollama
Saya sedang mempertimbangkan membeli Mac mini untuk menjalankan model secara lokal
Saya biasanya memakai Claude untuk pekerjaan pengembangan dan proyek homelab, dan ingin tahu apakah model terbuka sudah cukup layak dipakai di level itu, atau lebih baik tetap mempertahankan langganan 20 dolar per bulan
Sebelum membeli hardware dan hosting sendiri, saya sarankan coba dulu lewat layanan hosting. Anda bisa merasakan batasan modelnya lebih dulu
Tapi ekspektasi harus diturunkan. Benchmark bilang apa pun, tetap tidak bisa dibandingkan dengan Sonnet atau Opus
Saya menguji di MacBook Pro M4 (36GB) dengan open code frontend di LM Studio, tapi tool calling terus gagal jadi akhirnya kembali ke qwen
Penasaran apakah ada yang berhasil dengan lingkungan serupa
Tapi gemma-4-26B-A4B-it-GGUF:Q4_K_M berjalan baik di llama.cpp. Kecepatan (38 token per detik) dan kualitasnya sama-sama mengesankan
Saya sedang mencari model open yang bisa menggantikan Claude Sonnet 4.5
Saya penasaran apakah ada model di Ollama Cloud atau OpenRouter.ai yang benar-benar bisa jadi pengganti
Saya ingin mendengar pengalaman pemakaian nyata dari para developer, bukan benchmark
Saya sudah mencoba MiniMax, GLM, Qwen, Kimi, dan lainnya, tapi semuanya punya batas besar untuk tugas yang kompleks
Saya penasaran apakah ada yang sudah menjalankannya di M5 Air (32GB, 10-core) dengan build oMLX. Ingin tahu juga apakah tool calling berfungsi
Secara pribadi saya sedang menguji penambahan dukungan tool calling dan thinking
<|channel>Aneh karena langkah untuk “Gemma 4 12B” di tengah-tengah berubah menjadi 26B
Lalu di ollama ps tertulis “14%/86% CPU/GPU”, bukankah itu berarti performa GPU-nya buruk?
Menjalankan model 26B secara lokal memang mengesankan, tapi latency-nya tinggi sehingga sulit dipakai untuk tugas selain chat
Kami mengganti beban kerja pembuatan gambar dari inferensi lokal ke panggilan API. Cold start dan waktu generasinya terlalu lama
Lokal bagus untuk eksperimen, tapi untuk workload produksi yang butuh eksekusi tepat waktu, API masih lebih unggul
Meski begitu, setup lokal sangat berguna saat menangani data sensitif terhadap privasi
Saya penasaran kenapa begitu banyak orang memakai Ollama. Saya sudah mencobanya, tapi terasa terlalu disederhanakan
Sekarang rasanya Unsloth Studio adalah default yang lebih baik untuk pemula
ollama pulluntuk mengambil modelTidak ada kerumitan harus mencari sendiri nama model dan versinya di Hugging Face
Tapi kalau ingin mendalami lebih jauh, pada akhirnya tetap harus belajar arsitektur server
Sekarang saya lebih merekomendasikan LM Studio. Saya penasaran apa perbedaan utama Unsloth Studio
Kalau benar-benar ingin menang, hapus saja Ollama dan langsung pakai llama.cpp
Dengan GPU 16GB pun jalan dengan baik, dan cukup oke dipakai sebagai backend untuk bereksperimen dengan frontend lain
Saya penasaran apakah model ini bisa dipakai untuk coding lokal, dan IDE atau harness apa yang kompatibel
Hanya saja versi terbaru Codex punya masalah kompatibilitas API dengan llama.cpp
Saya lebih suka Pi. Minimalis dan mudah dikembangkan. Claude Code atau OpenCode juga cukup banyak dipakai
Untuk mengatasinya saya membuat proxy bernama Petsitter yang mengemulasikan fitur di antara inference engine dan harness
Tautan GitHub
Tinggal taruh Petsitter di atas Ollama, lalu pasang agent harness di atasnya
Versi terbaru Ollama sudah mendukung
"completion", "vision", "audio", "tools", "thinking"Tadi malam, untuk memakai model ini saya harus memasang Ollama v0.20 prerelease. Jadi saya ragu apakah panduan saat ini sudah akurat