Ringkasan pengaturan Ollama dan model Gemma 4 26B di Mac mini (per April 2026)

(gist.github.com/greenstevester)

33 poin oleh GN⁺ 2026-04-05 | 1 komentar | Bagikan ke WhatsApp

Ringkasan prosedur untuk mengonfigurasi Ollama dan model Gemma 4 agar berjalan otomatis dan tetap berada di memori pada Mac mini berbasis Apple Silicon
Dengan Homebrew, Launch Agent, dan variabel lingkungan, model dapat dimuat otomatis bahkan setelah reboot, dan model 8B berjalan stabil dengan penggunaan memori sekitar 9.6GB
Ollama v0.19 ke atas mendukung backend MLX dan format NVFP4, meningkatkan performa inferensi di lingkungan Apple dan NVIDIA
Model 26B tidak direkomendasikan karena penggunaan memorinya tinggi, sedangkan model 8B lebih cocok untuk penggunaan nyata
Melalui API lokal, permintaan OpenAI-compatible Chat Completion dapat dilakukan, sehingga berguna untuk membangun lingkungan layanan LLM yang persisten di Mac mini

Persiapan awal

Diperlukan Mac mini berbasis Apple Silicon (M1~M5)
Untuk menjalankan model Gemma 4 (8B), disarankan minimal 16GB unified memory
Diperlukan lingkungan macOS dengan Homebrew terpasang

Step 1 — Instal Ollama

Instal aplikasi Ollama macOS menggunakan Homebrew cask
```
brew install --cask ollama-app
```
Setelah instalasi, Ollama.app ditempatkan di /Applications/, dan CLI di /opt/homebrew/bin/ollama
Termasuk pembaruan otomatis dan backend MLX

Step 2 — Jalankan dan periksa Ollama

Jalankan aplikasi Ollama
```
open -a Ollama
```
Setelah ikon muncul di menu bar, tunggu inisialisasi server selesai
Periksa status berjalan
```
ollama list
```

Step 3 — Unduh model Gemma 4

Unduh model
```
ollama pull gemma4
```
Setelah mengunduh sekitar 9.6GB, verifikasi dengan ollama list
Model 26B akan menggunakan sebagian besar dari memori 24GB dan menyebabkan respons sistem menurun
- Disarankan memakai model 8B default (kuantisasi Q4_K_M)

Step 4 — Uji model dan cek akselerasi GPU

Uji model

ollama run gemma4:latest "Hello, what model are you?"

Cek status akselerasi GPU
```
ollama ps
```
- Contoh: rasio CPU/GPU 14%/86%

Step 5 — Atur auto-start dan mempertahankan model

5a. Auto-start aplikasi Ollama
- Klik ikon menu bar → aktifkan Launch at Login
- Atau tambahkan manual di System Settings > General > Login Items
5b. Auto-preload Gemma 4
- Setelah Ollama dimulai, buat Launch Agent agar model dimuat otomatis dan dipertahankan setiap 5 menit
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- Muat agen
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- Mengirim prompt kosong tiap 5 menit agar model tetap berada di memori
5c. Pertahankan model tanpa batas waktu
- Secara default, model akan di-unload setelah 5 menit tidak aktif
- Atur agar tetap aktif tanpa batas
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- Tambahkan ke ~/.zshrc agar tetap berlaku setelah reboot

Step 6 — Verifikasi konfigurasi

Pastikan server Ollama berjalan
```
ollama list
```
Periksa status model yang dimuat ke memori
```
ollama ps
```
Periksa registrasi Launch Agent
```
launchctl list | grep ollama
```

Contoh output yang diharapkan

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

Akses API

Endpoint API lokal: http://localhost:11434

Contoh OpenAI-compatible Chat Completion

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Perintah yang berguna

Perintah	Deskripsi
`ollama list`	Daftar model yang sudah diunduh
`ollama ps`	Model yang sedang berjalan dan penggunaan memori
`ollama run gemma4:latest`	Menjalankan secara interaktif
`ollama stop gemma4:latest`	Unload model
`ollama pull gemma4:latest`	Memperbarui ke versi terbaru
`ollama rm gemma4:latest`	Menghapus model

Hapus Ollama dan nonaktifkan auto-start

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Peningkatan utama di Ollama v0.19+ (31 Maret 2026)

Backend MLX (Apple Silicon)
- Secara otomatis menggunakan framework Apple MLX untuk meningkatkan kecepatan inferensi
- Chip seri M5 mendukung akselerasi tambahan GPU Neural Accelerator
- Chip M4 ke bawah juga mendapat peningkatan performa umum berbasis MLX
Format NVFP4 (NVIDIA)
- Melalui format NVFP4, bandwidth memori dan ruang penyimpanan dapat dihemat sambil menjaga akurasi
- Kompatibel dengan model yang dibuat menggunakan alat optimasi model NVIDIA
Peningkatan caching (coding dan tugas agent)
- Penggunaan memori berkurang: efisiensi meningkat lewat reuse cache antar percakapan
- Checkpoint cerdas: mengurangi throughput prompt dan meningkatkan kecepatan respons
- Smart cache eviction: mempertahankan prefiks umum untuk meningkatkan efisiensi pada pekerjaan bercabang

Catatan tambahan

Model Gemma 4 (8B) menggunakan sekitar 9.6GB memori
- Pada Mac mini 24GB, sekitar 14GB dapat tetap tersedia
Model 26B menggunakan sekitar 17GB dan dapat menyebabkan swap sistem serta respons menurun
- Model 8B memberikan performa yang stabil

Tautan referensi

1 komentar

GN⁺ 2026-04-05

Komentar Hacker News

Jika ini pertama kalinya Anda memakai model open weight tepat setelah rilis, perlu diketahui bahwa implementasi awal dan quantization selalu punya bug
Karena tiap proyek terburu-buru ingin mendukungnya pada hari peluncuran, hasilnya bisa saja tidak benar
Sudah ditemukan beberapa masalah pada implementasi tokenizer, dan quantization yang memakai imatrix juga bisa bermasalah
Dalam beberapa minggu ke depan akan banyak muncul posting seperti “tool calling tidak jalan jadi modelnya kacau”. Padahal yang terjadi adalah mereka memakai implementasi yang rusak
Jika ingin memakai model cutting-edge, Anda harus siap sering memperbarui inference engine, dan mengunduh ulang versi quantization setiap kali berubah
Karena ada persaingan untuk mengejar hari rilis, pendekatannya sering seperti “kalau token output sudah keluar langsung kirim”, jadi verifikasi akurasi jadi urusan belakangan
- Saya penasaran inference engine apa yang sebaiknya dipakai di Linux dengan 4090
  Saya cukup sering mengalami masalah tool calling tidak berjalan, tapi tidak tahu apakah ini masalah model atau masalah ollama
Saya sedang mempertimbangkan membeli Mac mini untuk menjalankan model secara lokal
Saya biasanya memakai Claude untuk pekerjaan pengembangan dan proyek homelab, dan ingin tahu apakah model terbuka sudah cukup layak dipakai di level itu, atau lebih baik tetap mempertahankan langganan 20 dolar per bulan
- Untuk tugas kecil lumayan, tapi kalau berharap seperti Claude Anda kemungkinan akan kecewa
  Sebelum membeli hardware dan hosting sendiri, saya sarankan coba dulu lewat layanan hosting. Anda bisa merasakan batasan modelnya lebih dulu
- Saya sudah memakai model terbuka sejak kebocoran llama. Kualitasnya terus membaik, dan keren rasanya bisa menjalankan sekumpulan pengetahuan secara lokal tanpa internet
  Tapi ekspektasi harus diturunkan. Benchmark bilang apa pun, tetap tidak bisa dibandingkan dengan Sonnet atau Opus
- Cara terbaik adalah langsung tes sendiri dengan kredit OpenRouter 10 dolar. Dari pengalaman saya, sejauh ini masih banyak kurangnya, tapi tetap seru untuk dicek sesekali
- gpt-oss-20B punya performa agen yang lumayan bagus, tapi tetap tidak bisa dibandingkan dengan model berbayar Claude Code. Katanya versi 120B jauh lebih baik
Saya menguji di MacBook Pro M4 (36GB) dengan open code frontend di LM Studio, tapi tool calling terus gagal jadi akhirnya kembali ke qwen
Penasaran apakah ada yang berhasil dengan lingkungan serupa
- Kegagalan tool calling itu masalah implementasi inference engine atau quantization. Coba lagi beberapa hari setelah update. Ini memang selalu terjadi setiap kali ada rilis model terbuka
- Saya di M5 (32GB) mengalami komputer hang saat menjalankan LM Studio sampai harus reboot
  Tapi gemma-4-26B-A4B-it-GGUF:Q4_K_M berjalan baik di llama.cpp. Kecepatan (38 token per detik) dan kualitasnya sama-sama mengesankan
- Saya juga mengalami masalah yang sama. Di versi Q_8 LM Studio, model masuk ke mode loop yang terus mengulang perintah
- Kata orang lain, versi main dan runtime keduanya harus diperbarui
- Saya juga mengonfirmasi kegagalan tool calling di server Ubuntu (charmbracelet/crush)
Saya sedang mencari model open yang bisa menggantikan Claude Sonnet 4.5
Saya penasaran apakah ada model di Ollama Cloud atau OpenRouter.ai yang benar-benar bisa jadi pengganti
Saya ingin mendengar pengalaman pemakaian nyata dari para developer, bukan benchmark
- Kesimpulannya, tidak ada model yang bisa menggantikan Sonnet dan Opus. Seri GPT Codex juga masih sangat bagus
  Saya sudah mencoba MiniMax, GLM, Qwen, Kimi, dan lainnya, tapi semuanya punya batas besar untuk tugas yang kompleks
- Menurut saya GLM5 dan KimiK2.5 cukup mendekati Sonnet sebagai alternatif
Saya penasaran apakah ada yang sudah menjalankannya di M5 Air (32GB, 10-core) dengan build oMLX. Ingin tahu juga apakah tool calling berfungsi
- Rilis v0.3.2 masih dalam status dukungan parsial. Pembuatan teks sudah bisa, tapi penanganan token khusus masih belum selesai
  Secara pribadi saya sedang menguji penambahan dukungan tool calling dan thinking <|channel>
- Saya dengar ada yang berhasil menjalankan Gemma 4 E4B di MLX (tautan)
Aneh karena langkah untuk “Gemma 4 12B” di tengah-tengah berubah menjadi 26B
Lalu di ollama ps tertulis “14%/86% CPU/GPU”, bukankah itu berarti performa GPU-nya buruk?
- Mac mini memakai memori bersama antara CPU dan GPU, jadi rasanya rasio itu bisa diabaikan
Menjalankan model 26B secara lokal memang mengesankan, tapi latency-nya tinggi sehingga sulit dipakai untuk tugas selain chat
Kami mengganti beban kerja pembuatan gambar dari inferensi lokal ke panggilan API. Cold start dan waktu generasinya terlalu lama
Lokal bagus untuk eksperimen, tapi untuk workload produksi yang butuh eksekusi tepat waktu, API masih lebih unggul
Meski begitu, setup lokal sangat berguna saat menangani data sensitif terhadap privasi
Saya penasaran kenapa begitu banyak orang memakai Ollama. Saya sudah mencobanya, tapi terasa terlalu disederhanakan
Sekarang rasanya Unsloth Studio adalah default yang lebih baik untuk pemula
- Ollama mudah diakses karena cukup satu baris ollama pull untuk mengambil model
  Tidak ada kerumitan harus mencari sendiri nama model dan versinya di Hugging Face
  Tapi kalau ingin mendalami lebih jauh, pada akhirnya tetap harus belajar arsitektur server
- Ollama punya first-mover advantage pada awalnya. Dulu membangun llama.cpp sendiri memang jadi hambatan
  Sekarang saya lebih merekomendasikan LM Studio. Saya penasaran apa perbedaan utama Unsloth Studio
- Saya tidak tahu kenapa orang-orang tidak lebih sering menyebut LMStudio. Saya pindah beberapa bulan lalu dan rasanya jauh lebih baik
- Popularitas Ollama datang dari efek promosi. Di Reddit dan Discord, ia dipromosikan sebagai ‘frontend mudah untuk llama.cpp’
  Kalau benar-benar ingin menang, hapus saja Ollama dan langsung pakai llama.cpp
- Saya malah ingin bertanya sebaliknya — memangnya apa masalahnya Ollama?
  Dengan GPU 16GB pun jalan dengan baik, dan cukup oke dipakai sebagai backend untuk bereksperimen dengan frontend lain
Saya penasaran apakah model ini bisa dipakai untuk coding lokal, dan IDE atau harness apa yang kompatibel
- Kebanyakan harness bisa dipakai untuk coding lokal jika Anda menunjuk endpoint API yang kompatibel dengan OpenAI
  Hanya saja versi terbaru Codex punya masalah kompatibilitas API dengan llama.cpp
  Saya lebih suka Pi. Minimalis dan mudah dikembangkan. Claude Code atau OpenCode juga cukup banyak dipakai
- Harus ada dukungan tool calling, dan banyak gguf quantization tidak mendukung itu
  Untuk mengatasinya saya membuat proxy bernama Petsitter yang mengemulasikan fitur di antara inference engine dan harness
  Tautan GitHub
  Tinggal taruh Petsitter di atas Ollama, lalu pasang agent harness di atasnya
  Versi terbaru Ollama sudah mendukung "completion", "vision", "audio", "tools", "thinking"
Tadi malam, untuk memakai model ini saya harus memasang Ollama v0.20 prerelease. Jadi saya ragu apakah panduan saat ini sudah akurat

Ringkasan pengaturan Ollama dan model Gemma 4 26B di Mac mini (per April 2026)

Persiapan awal

Step 1 — Instal Ollama

Step 2 — Jalankan dan periksa Ollama

Step 3 — Unduh model Gemma 4

Step 4 — Uji model dan cek akselerasi GPU

Step 5 — Atur auto-start dan mempertahankan model

5a. Auto-start aplikasi Ollama

5b. Auto-preload Gemma 4

5c. Pertahankan model tanpa batas waktu

Step 6 — Verifikasi konfigurasi

Akses API

Perintah yang berguna

Hapus Ollama dan nonaktifkan auto-start

Peningkatan utama di Ollama v0.19+ (31 Maret 2026)

Backend MLX (Apple Silicon)

Format NVFP4 (NVIDIA)

Peningkatan caching (coding dan tugas agent)

Catatan tambahan

Tautan referensi

Bacaan terkait

1 komentar

Komentar Hacker News