Ollama kini berjalan berbasis MLX di Apple Silicon

(ollama.com)

5 poin oleh GN⁺ 2026-03-31 | 1 komentar | Bagikan ke WhatsApp

Versi pratinjau Ollama berbasis framework Apple MLX telah dirilis, menghadirkan peningkatan performa dengan memanfaatkan arsitektur memori terpadu di Apple Silicon
Melalui GPU Neural Accelerator pada chip seri M5, TTFT (waktu hingga token pertama) dan kecepatan generasi token sama-sama meningkat
Dukungan format NVFP4 mengurangi kebutuhan bandwidth memori dan penyimpanan sambil mempertahankan akurasi model, serta memungkinkan menjalankan model yang dioptimalkan dengan NVIDIA Model Optimizer
Penggunaan ulang cache dan kebijakan cache cerdas meningkatkan efisiensi memori antar percakapan dan kecepatan respons, sekaligus menaikkan cache hit rate untuk prompt bersama
Ke depannya, dukungan arsitektur akan diperluas dengan menambahkan lebih banyak model dan fitur impor model kustom

Pratinjau Ollama yang berjalan berbasis MLX di Apple Silicon

Versi pratinjau baru Ollama berbasis framework MLX milik Apple telah dirilis
- Memungkinkan menjalankan asisten pribadi (OpenClaw) atau coding agent (Claude Code, OpenCode, Codex, dll.) lebih cepat di macOS
- Meningkatkan performa dengan memanfaatkan arsitektur memori terpadu di Apple Silicon
Peningkatan performa di Apple Silicon
- Ollama berjalan di atas framework machine learning MLX dari Apple, dan memanfaatkan GPU Neural Accelerator pada chip M5, M5 Pro, dan M5 Max untuk mempercepat TTFT (waktu hingga token pertama) serta kecepatan generasi token
- Pada pengujian tanggal 29 Maret 2026, model Qwen3.5-35B-A3B dari Alibaba (kuantisasi NVFP4) dibandingkan dengan implementasi Ollama sebelumnya (Q4_K_M)
- Ollama versi 0.19 mencatat performa prefill 1851 token/s dan decode 134 token/s saat menjalankan int4
Dukungan NVFP4
- Mendukung format NVFP4 dari NVIDIA untuk mencapai akurasi model tetap terjaga sekaligus mengurangi kebutuhan bandwidth memori dan penyimpanan
- Menjamin konsistensi hasil antara lingkungan inferensi yang menggunakan NVFP4 dan lingkungan produksi
- Dapat menjalankan model yang dioptimalkan dengan Model Optimizer dari NVIDIA
- Presisi lain juga akan ditambahkan sesuai desain dan kebutuhan mitra riset serta hardware Ollama
Peningkatan sistem cache
- Penggunaan ulang cache mengurangi penggunaan memori antar percakapan, dan meningkatkan cache hit rate saat memakai system prompt bersama
- Memperkenalkan checkpoint cerdas untuk mengurangi pemrosesan prompt dan meningkatkan kecepatan respons
- Dengan kebijakan penghapusan cache cerdas, prefix bersama bisa dipertahankan lebih lama meskipun branch lama dihapus
Cara memulai
- Unduh Ollama 0.19
- Model Qwen3.5-35B-A3B baru telah dituning dengan parameter sampling agar cocok untuk tugas coding
- Membutuhkan Mac dengan memori terpadu 32GB atau lebih
- Contoh menjalankan:
  - Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
  - OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
  - Percakapan dengan model: ollama run qwen3.5:35b-a3b-coding-nvfp4
Rencana ke depan
- Dukungan untuk lebih banyak model akan ditambahkan
- Fitur impor model kustom berbasis arsitektur yang didukung akan ditambahkan
- Daftar arsitektur yang didukung akan terus diperluas
Ucapan terima kasih
- Tim kontributor MLX atas pengembangan framework akselerasi
- Tim NVIDIA atas kuantisasi NVFP4, optimasi model, dukungan MLX CUDA, optimasi Ollama, dan pengujian
- Tim GGML dan llama.cpp atas pembangunan framework lokal dan komunitas
- Tim Alibaba Qwen atas penyediaan model open source dan kolaborasi

1 komentar

GN⁺ 2026-03-31

Komentar Hacker News

"apfel" buatan saya adalah CLI untuk foundation model lokal on-device milik Apple
Memang ada guardrail yang berlebihan seperti batas konteks 4k dan bahkan pembatasan deskripsi warna, tetapi rasanya sangat kuat karena bisa langsung dipakai dari skrip bash tanpa panggilan eksternal
- Jujur saja, sulit dipercaya Apple merilis produknya dalam kondisi seperti ini
  Saya juga sempat berharap banyak, tetapi setelah mencobanya saya sangat kecewa. Sekarang Apple tampaknya sudah benar-benar beralih ke Gemini, jadi saya justru merasa itu hal yang baik
- Proyek yang keren. Apakah ada rencana untuk distribusi lewat Homebrew?
Saya rasa LLM on-device adalah masa depan
Keamanannya lebih kuat, konsumsi dayanya lebih rendah dibanding data center, dan juga bisa membantu meredakan masalah permintaan inferensi. Sebagian besar pengguna tidak membutuhkan performa model paling mutakhir
- Keamanannya memang lebih tinggi, tetapi efisiensi penyediaannya justru bisa memburuk
  Data center hampir 100 kali lebih efisien daripada PC pribadi berkat batching GPU dan tingkat utilisasi yang tinggi
- Dari sudut pandang perusahaan, model data center yang tersentralisasi masih bisa lebih masuk akal
  Namun, pendekatan hibrida tampak menjanjikan: model lokal menangani permintaan sederhana, dan yang kompleks diteruskan ke cloud
- Belakangan ini saya memasang llama.cpp di M4 MBP untuk bereksperimen dengan model lokal
  Ada antarmuka bawaan bergaya ChatGPT, jadi berguna untuk pengujian cepat. Bahkan dengan RAM 16GB pun ada cukup banyak model yang berjalan lumayan baik
  Misalnya, Qwen 3.5 9B sangat ketat soal sensor, sedangkan versi Uncensored justru terlalu bebas, jadi menarik melihat bagaimana menyeimbangkannya
- Dengan offloading ke SSD, model SOTA juga bisa dijalankan di PC konsumen
  Hanya saja bandwidth SSD menjadi bottleneck, jadi semakin banyak RAM untuk cache akan semakin baik. Jika Anda tidak masalah menunggu respons, ini cukup praktis
- Saya sudah melakukan journaling digital selama 5 tahun dan sudah memperkirakan arah seperti ini
  Baru-baru ini saya membuat aplikasi graphRAG dengan menggabungkan Qwen 3.5 4B dan 27B, dan hasilnya cukup baik ketika tugas kecil dan tanya jawab dipisahkan
  Saya memakai MLX, dan terasa jauh lebih cepat saat melakukan pemrosesan batch untuk ekstraksi entitas
Senang melihat inferensi Ollama di Mac meningkat pesat berkat MLX
Terutama fitur SSD KV caching dari omlx.ai benar-benar terasa seperti game changer
Walaupun sesi sudah hilang dari memori, tidak perlu prefill ulang, dan berkat kecepatan prefill M5 Max yang tinggi, kini lebih banyak waktu bisa dipakai untuk generasi
Saya menjalankan qwen 70b 4-bit dengan llama.cpp di M2 Max 96GB
Untuk pekerjaan sehari-hari, ini cukup stabil. Dulu Ollama memanggil llama.cpp lewat shell, tetapi sekarang dengan peralihan native ke MLX sepertinya efisiensi memorinya akan membaik
Saya berencana membandingkannya dengan jalur gguf pada model besar
- Saya penasaran berapa kecepatan generasi token per detiknya
- Saat peluncuran awal, beberapa model GGUF sempat tertimpa sehingga unduhan terblokir di platform selain Apple Silicon. Semoga segera diperbaiki
Saya heran kenapa orang masih memakai Ollama
Lemonade atau llama.cpp lebih optimal dan kemudahan pakainya juga mirip
Saya penasaran apakah ada alternatif non-Mac yang bisa menjalankan model lokal dengan performa setingkat Mac
- Tidak di level yang sama. Di PC Anda butuh GPU kelas 5090, tetapi baik efisiensi token per biaya maupun efisiensi daya, Apple Silicon jauh lebih unggul
Saya penasaran bagaimana perbandingannya dengan engine inferensi MLX optiq terbaru
optiq mendukung Turboquantization
Saya ingin tahu perbandingan performa llama.cpp dan MLX
- MLX sedikit lebih cepat, tetapi penggunaan RAM-nya juga sedikit lebih besar
  Meski begitu, dalam kebanyakan kasus peningkatan kecepatan lebih berharga
Saya menantikan hari ketika hanya dengan RAM 16GB saya bisa nyaman menjalankan Claude Code dengan LLM lokal di MacOS
- Saat ini saya dengar minimal perlu 32GB, jadi saya penasaran seberapa dekat kita ke titik itu

Ollama kini berjalan berbasis MLX di Apple Silicon

Pratinjau Ollama yang berjalan berbasis MLX di Apple Silicon

Peningkatan performa di Apple Silicon

Dukungan NVFP4

Peningkatan sistem cache

Cara memulai

Rencana ke depan

Ucapan terima kasih

Bacaan terkait

1 komentar

Komentar Hacker News