33 poin oleh GN⁺ 16 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Ringkasan prosedur untuk mengonfigurasi Ollama dan model Gemma 4 agar berjalan otomatis dan tetap berada di memori pada Mac mini berbasis Apple Silicon
  • Dengan Homebrew, Launch Agent, dan variabel lingkungan, model dapat dimuat otomatis bahkan setelah reboot, dan model 8B berjalan stabil dengan penggunaan memori sekitar 9.6GB
  • Ollama v0.19 ke atas mendukung backend MLX dan format NVFP4, meningkatkan performa inferensi di lingkungan Apple dan NVIDIA
  • Model 26B tidak direkomendasikan karena penggunaan memorinya tinggi, sedangkan model 8B lebih cocok untuk penggunaan nyata
  • Melalui API lokal, permintaan OpenAI-compatible Chat Completion dapat dilakukan, sehingga berguna untuk membangun lingkungan layanan LLM yang persisten di Mac mini

Persiapan awal

  • Diperlukan Mac mini berbasis Apple Silicon (M1~M5)
  • Untuk menjalankan model Gemma 4 (8B), disarankan minimal 16GB unified memory
  • Diperlukan lingkungan macOS dengan Homebrew terpasang

Step 1 — Instal Ollama

  • Instal aplikasi Ollama macOS menggunakan Homebrew cask

    brew install --cask ollama-app
    
  • Setelah instalasi, Ollama.app ditempatkan di /Applications/, dan CLI di /opt/homebrew/bin/ollama

  • Termasuk pembaruan otomatis dan backend MLX

Step 2 — Jalankan dan periksa Ollama

  • Jalankan aplikasi Ollama

    open -a Ollama
    
  • Setelah ikon muncul di menu bar, tunggu inisialisasi server selesai

  • Periksa status berjalan

    ollama list
    

Step 3 — Unduh model Gemma 4

  • Unduh model

    ollama pull gemma4
    
  • Setelah mengunduh sekitar 9.6GB, verifikasi dengan ollama list

  • Model 26B akan menggunakan sebagian besar dari memori 24GB dan menyebabkan respons sistem menurun

    • Disarankan memakai model 8B default (kuantisasi Q4_K_M)

Step 4 — Uji model dan cek akselerasi GPU

  • Uji model

    ollama run gemma4:latest "Hello, what model are you?"
    
  • Cek status akselerasi GPU

    ollama ps
    
    • Contoh: rasio CPU/GPU 14%/86%

Step 5 — Atur auto-start dan mempertahankan model

  • 5a. Auto-start aplikasi Ollama

    • Klik ikon menu bar → aktifkan Launch at Login
    • Atau tambahkan manual di System Settings > General > Login Items
  • 5b. Auto-preload Gemma 4

    • Setelah Ollama dimulai, buat Launch Agent agar model dimuat otomatis dan dipertahankan setiap 5 menit

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • Muat agen

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • Mengirim prompt kosong tiap 5 menit agar model tetap berada di memori

  • 5c. Pertahankan model tanpa batas waktu

    • Secara default, model akan di-unload setelah 5 menit tidak aktif

    • Atur agar tetap aktif tanpa batas

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • Tambahkan ke ~/.zshrc agar tetap berlaku setelah reboot

Step 6 — Verifikasi konfigurasi

  • Pastikan server Ollama berjalan

    ollama list
    
  • Periksa status model yang dimuat ke memori

    ollama ps
    
  • Periksa registrasi Launch Agent

    launchctl list | grep ollama
    
  • Contoh output yang diharapkan

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

Akses API

Perintah yang berguna

Perintah Deskripsi
ollama list Daftar model yang sudah diunduh
ollama ps Model yang sedang berjalan dan penggunaan memori
ollama run gemma4:latest Menjalankan secara interaktif
ollama stop gemma4:latest Unload model
ollama pull gemma4:latest Memperbarui ke versi terbaru
ollama rm gemma4:latest Menghapus model

Hapus Ollama dan nonaktifkan auto-start

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Peningkatan utama di Ollama v0.19+ (31 Maret 2026)

  • Backend MLX (Apple Silicon)

    • Secara otomatis menggunakan framework Apple MLX untuk meningkatkan kecepatan inferensi
    • Chip seri M5 mendukung akselerasi tambahan GPU Neural Accelerator
    • Chip M4 ke bawah juga mendapat peningkatan performa umum berbasis MLX
  • Format NVFP4 (NVIDIA)

    • Melalui format NVFP4, bandwidth memori dan ruang penyimpanan dapat dihemat sambil menjaga akurasi
    • Kompatibel dengan model yang dibuat menggunakan alat optimasi model NVIDIA
  • Peningkatan caching (coding dan tugas agent)

    • Penggunaan memori berkurang: efisiensi meningkat lewat reuse cache antar percakapan
    • Checkpoint cerdas: mengurangi throughput prompt dan meningkatkan kecepatan respons
    • Smart cache eviction: mempertahankan prefiks umum untuk meningkatkan efisiensi pada pekerjaan bercabang

Catatan tambahan

  • Model Gemma 4 (8B) menggunakan sekitar 9.6GB memori
    • Pada Mac mini 24GB, sekitar 14GB dapat tetap tersedia
  • Model 26B menggunakan sekitar 17GB dan dapat menyebabkan swap sistem serta respons menurun
    • Model 8B memberikan performa yang stabil

Tautan referensi

1 komentar

 
GN⁺ 16 hari lalu
Komentar Hacker News
  • Jika ini pertama kalinya Anda memakai model open weight tepat setelah rilis, perlu diketahui bahwa implementasi awal dan quantization selalu punya bug
    Karena tiap proyek terburu-buru ingin mendukungnya pada hari peluncuran, hasilnya bisa saja tidak benar
    Sudah ditemukan beberapa masalah pada implementasi tokenizer, dan quantization yang memakai imatrix juga bisa bermasalah
    Dalam beberapa minggu ke depan akan banyak muncul posting seperti “tool calling tidak jalan jadi modelnya kacau”. Padahal yang terjadi adalah mereka memakai implementasi yang rusak
    Jika ingin memakai model cutting-edge, Anda harus siap sering memperbarui inference engine, dan mengunduh ulang versi quantization setiap kali berubah
    Karena ada persaingan untuk mengejar hari rilis, pendekatannya sering seperti “kalau token output sudah keluar langsung kirim”, jadi verifikasi akurasi jadi urusan belakangan

    • Saya penasaran inference engine apa yang sebaiknya dipakai di Linux dengan 4090
      Saya cukup sering mengalami masalah tool calling tidak berjalan, tapi tidak tahu apakah ini masalah model atau masalah ollama
  • Saya sedang mempertimbangkan membeli Mac mini untuk menjalankan model secara lokal
    Saya biasanya memakai Claude untuk pekerjaan pengembangan dan proyek homelab, dan ingin tahu apakah model terbuka sudah cukup layak dipakai di level itu, atau lebih baik tetap mempertahankan langganan 20 dolar per bulan

    • Untuk tugas kecil lumayan, tapi kalau berharap seperti Claude Anda kemungkinan akan kecewa
      Sebelum membeli hardware dan hosting sendiri, saya sarankan coba dulu lewat layanan hosting. Anda bisa merasakan batasan modelnya lebih dulu
    • Saya sudah memakai model terbuka sejak kebocoran llama. Kualitasnya terus membaik, dan keren rasanya bisa menjalankan sekumpulan pengetahuan secara lokal tanpa internet
      Tapi ekspektasi harus diturunkan. Benchmark bilang apa pun, tetap tidak bisa dibandingkan dengan Sonnet atau Opus
    • Cara terbaik adalah langsung tes sendiri dengan kredit OpenRouter 10 dolar. Dari pengalaman saya, sejauh ini masih banyak kurangnya, tapi tetap seru untuk dicek sesekali
    • gpt-oss-20B punya performa agen yang lumayan bagus, tapi tetap tidak bisa dibandingkan dengan model berbayar Claude Code. Katanya versi 120B jauh lebih baik
  • Saya menguji di MacBook Pro M4 (36GB) dengan open code frontend di LM Studio, tapi tool calling terus gagal jadi akhirnya kembali ke qwen
    Penasaran apakah ada yang berhasil dengan lingkungan serupa

    • Kegagalan tool calling itu masalah implementasi inference engine atau quantization. Coba lagi beberapa hari setelah update. Ini memang selalu terjadi setiap kali ada rilis model terbuka
    • Saya di M5 (32GB) mengalami komputer hang saat menjalankan LM Studio sampai harus reboot
      Tapi gemma-4-26B-A4B-it-GGUF:Q4_K_M berjalan baik di llama.cpp. Kecepatan (38 token per detik) dan kualitasnya sama-sama mengesankan
    • Saya juga mengalami masalah yang sama. Di versi Q_8 LM Studio, model masuk ke mode loop yang terus mengulang perintah
    • Kata orang lain, versi main dan runtime keduanya harus diperbarui
    • Saya juga mengonfirmasi kegagalan tool calling di server Ubuntu (charmbracelet/crush)
  • Saya sedang mencari model open yang bisa menggantikan Claude Sonnet 4.5
    Saya penasaran apakah ada model di Ollama Cloud atau OpenRouter.ai yang benar-benar bisa jadi pengganti
    Saya ingin mendengar pengalaman pemakaian nyata dari para developer, bukan benchmark

    • Kesimpulannya, tidak ada model yang bisa menggantikan Sonnet dan Opus. Seri GPT Codex juga masih sangat bagus
      Saya sudah mencoba MiniMax, GLM, Qwen, Kimi, dan lainnya, tapi semuanya punya batas besar untuk tugas yang kompleks
    • Menurut saya GLM5 dan KimiK2.5 cukup mendekati Sonnet sebagai alternatif
  • Saya penasaran apakah ada yang sudah menjalankannya di M5 Air (32GB, 10-core) dengan build oMLX. Ingin tahu juga apakah tool calling berfungsi

    • Rilis v0.3.2 masih dalam status dukungan parsial. Pembuatan teks sudah bisa, tapi penanganan token khusus masih belum selesai
      Secara pribadi saya sedang menguji penambahan dukungan tool calling dan thinking <|channel>
    • Saya dengar ada yang berhasil menjalankan Gemma 4 E4B di MLX (tautan)
  • Aneh karena langkah untuk “Gemma 4 12B” di tengah-tengah berubah menjadi 26B
    Lalu di ollama ps tertulis “14%/86% CPU/GPU”, bukankah itu berarti performa GPU-nya buruk?

    • Mac mini memakai memori bersama antara CPU dan GPU, jadi rasanya rasio itu bisa diabaikan
  • Menjalankan model 26B secara lokal memang mengesankan, tapi latency-nya tinggi sehingga sulit dipakai untuk tugas selain chat
    Kami mengganti beban kerja pembuatan gambar dari inferensi lokal ke panggilan API. Cold start dan waktu generasinya terlalu lama
    Lokal bagus untuk eksperimen, tapi untuk workload produksi yang butuh eksekusi tepat waktu, API masih lebih unggul
    Meski begitu, setup lokal sangat berguna saat menangani data sensitif terhadap privasi

  • Saya penasaran kenapa begitu banyak orang memakai Ollama. Saya sudah mencobanya, tapi terasa terlalu disederhanakan
    Sekarang rasanya Unsloth Studio adalah default yang lebih baik untuk pemula

    • Ollama mudah diakses karena cukup satu baris ollama pull untuk mengambil model
      Tidak ada kerumitan harus mencari sendiri nama model dan versinya di Hugging Face
      Tapi kalau ingin mendalami lebih jauh, pada akhirnya tetap harus belajar arsitektur server
    • Ollama punya first-mover advantage pada awalnya. Dulu membangun llama.cpp sendiri memang jadi hambatan
      Sekarang saya lebih merekomendasikan LM Studio. Saya penasaran apa perbedaan utama Unsloth Studio
    • Saya tidak tahu kenapa orang-orang tidak lebih sering menyebut LMStudio. Saya pindah beberapa bulan lalu dan rasanya jauh lebih baik
    • Popularitas Ollama datang dari efek promosi. Di Reddit dan Discord, ia dipromosikan sebagai ‘frontend mudah untuk llama.cpp’
      Kalau benar-benar ingin menang, hapus saja Ollama dan langsung pakai llama.cpp
    • Saya malah ingin bertanya sebaliknya — memangnya apa masalahnya Ollama?
      Dengan GPU 16GB pun jalan dengan baik, dan cukup oke dipakai sebagai backend untuk bereksperimen dengan frontend lain
  • Saya penasaran apakah model ini bisa dipakai untuk coding lokal, dan IDE atau harness apa yang kompatibel

    • Kebanyakan harness bisa dipakai untuk coding lokal jika Anda menunjuk endpoint API yang kompatibel dengan OpenAI
      Hanya saja versi terbaru Codex punya masalah kompatibilitas API dengan llama.cpp
      Saya lebih suka Pi. Minimalis dan mudah dikembangkan. Claude Code atau OpenCode juga cukup banyak dipakai
    • Harus ada dukungan tool calling, dan banyak gguf quantization tidak mendukung itu
      Untuk mengatasinya saya membuat proxy bernama Petsitter yang mengemulasikan fitur di antara inference engine dan harness
      Tautan GitHub
      Tinggal taruh Petsitter di atas Ollama, lalu pasang agent harness di atasnya
      Versi terbaru Ollama sudah mendukung "completion", "vision", "audio", "tools", "thinking"
  • Tadi malam, untuk memakai model ini saya harus memasang Ollama v0.20 prerelease. Jadi saya ragu apakah panduan saat ini sudah akurat