- Versi pratinjau Ollama berbasis framework Apple MLX telah dirilis, menghadirkan peningkatan performa dengan memanfaatkan arsitektur memori terpadu di Apple Silicon
- Melalui GPU Neural Accelerator pada chip seri M5, TTFT (waktu hingga token pertama) dan kecepatan generasi token sama-sama meningkat
- Dukungan format NVFP4 mengurangi kebutuhan bandwidth memori dan penyimpanan sambil mempertahankan akurasi model, serta memungkinkan menjalankan model yang dioptimalkan dengan NVIDIA Model Optimizer
- Penggunaan ulang cache dan kebijakan cache cerdas meningkatkan efisiensi memori antar percakapan dan kecepatan respons, sekaligus menaikkan cache hit rate untuk prompt bersama
- Ke depannya, dukungan arsitektur akan diperluas dengan menambahkan lebih banyak model dan fitur impor model kustom
Pratinjau Ollama yang berjalan berbasis MLX di Apple Silicon
- Versi pratinjau baru Ollama berbasis framework MLX milik Apple telah dirilis
- Memungkinkan menjalankan asisten pribadi (OpenClaw) atau coding agent (Claude Code, OpenCode, Codex, dll.) lebih cepat di macOS
- Meningkatkan performa dengan memanfaatkan arsitektur memori terpadu di Apple Silicon
-
Peningkatan performa di Apple Silicon
- Ollama berjalan di atas framework machine learning MLX dari Apple, dan memanfaatkan GPU Neural Accelerator pada chip M5, M5 Pro, dan M5 Max untuk mempercepat TTFT (waktu hingga token pertama) serta kecepatan generasi token
- Pada pengujian tanggal 29 Maret 2026, model Qwen3.5-35B-A3B dari Alibaba (kuantisasi
NVFP4) dibandingkan dengan implementasi Ollama sebelumnya (Q4_K_M)
- Ollama versi 0.19 mencatat performa prefill 1851 token/s dan decode 134 token/s saat menjalankan
int4
-
Dukungan NVFP4
- Mendukung format NVFP4 dari NVIDIA untuk mencapai akurasi model tetap terjaga sekaligus mengurangi kebutuhan bandwidth memori dan penyimpanan
- Menjamin konsistensi hasil antara lingkungan inferensi yang menggunakan NVFP4 dan lingkungan produksi
- Dapat menjalankan model yang dioptimalkan dengan Model Optimizer dari NVIDIA
- Presisi lain juga akan ditambahkan sesuai desain dan kebutuhan mitra riset serta hardware Ollama
-
Peningkatan sistem cache
- Penggunaan ulang cache mengurangi penggunaan memori antar percakapan, dan meningkatkan cache hit rate saat memakai system prompt bersama
- Memperkenalkan checkpoint cerdas untuk mengurangi pemrosesan prompt dan meningkatkan kecepatan respons
- Dengan kebijakan penghapusan cache cerdas, prefix bersama bisa dipertahankan lebih lama meskipun branch lama dihapus
-
Cara memulai
- Unduh Ollama 0.19
- Model Qwen3.5-35B-A3B baru telah dituning dengan parameter sampling agar cocok untuk tugas coding
- Membutuhkan Mac dengan memori terpadu 32GB atau lebih
- Contoh menjalankan:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
- OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
- Percakapan dengan model:
ollama run qwen3.5:35b-a3b-coding-nvfp4
-
Rencana ke depan
- Dukungan untuk lebih banyak model akan ditambahkan
- Fitur impor model kustom berbasis arsitektur yang didukung akan ditambahkan
- Daftar arsitektur yang didukung akan terus diperluas
-
Ucapan terima kasih
- Tim kontributor MLX atas pengembangan framework akselerasi
- Tim NVIDIA atas kuantisasi NVFP4, optimasi model, dukungan MLX CUDA, optimasi Ollama, dan pengujian
- Tim GGML dan llama.cpp atas pembangunan framework lokal dan komunitas
- Tim Alibaba Qwen atas penyediaan model open source dan kolaborasi
1 komentar
Komentar Hacker News
"apfel" buatan saya adalah CLI untuk foundation model lokal on-device milik Apple
Memang ada guardrail yang berlebihan seperti batas konteks 4k dan bahkan pembatasan deskripsi warna, tetapi rasanya sangat kuat karena bisa langsung dipakai dari skrip bash tanpa panggilan eksternal
Saya juga sempat berharap banyak, tetapi setelah mencobanya saya sangat kecewa. Sekarang Apple tampaknya sudah benar-benar beralih ke Gemini, jadi saya justru merasa itu hal yang baik
Saya rasa LLM on-device adalah masa depan
Keamanannya lebih kuat, konsumsi dayanya lebih rendah dibanding data center, dan juga bisa membantu meredakan masalah permintaan inferensi. Sebagian besar pengguna tidak membutuhkan performa model paling mutakhir
Data center hampir 100 kali lebih efisien daripada PC pribadi berkat batching GPU dan tingkat utilisasi yang tinggi
Namun, pendekatan hibrida tampak menjanjikan: model lokal menangani permintaan sederhana, dan yang kompleks diteruskan ke cloud
Ada antarmuka bawaan bergaya ChatGPT, jadi berguna untuk pengujian cepat. Bahkan dengan RAM 16GB pun ada cukup banyak model yang berjalan lumayan baik
Misalnya, Qwen 3.5 9B sangat ketat soal sensor, sedangkan versi Uncensored justru terlalu bebas, jadi menarik melihat bagaimana menyeimbangkannya
Hanya saja bandwidth SSD menjadi bottleneck, jadi semakin banyak RAM untuk cache akan semakin baik. Jika Anda tidak masalah menunggu respons, ini cukup praktis
Baru-baru ini saya membuat aplikasi graphRAG dengan menggabungkan Qwen 3.5 4B dan 27B, dan hasilnya cukup baik ketika tugas kecil dan tanya jawab dipisahkan
Saya memakai MLX, dan terasa jauh lebih cepat saat melakukan pemrosesan batch untuk ekstraksi entitas
Senang melihat inferensi Ollama di Mac meningkat pesat berkat MLX
Terutama fitur SSD KV caching dari omlx.ai benar-benar terasa seperti game changer
Walaupun sesi sudah hilang dari memori, tidak perlu prefill ulang, dan berkat kecepatan prefill M5 Max yang tinggi, kini lebih banyak waktu bisa dipakai untuk generasi
Saya menjalankan qwen 70b 4-bit dengan llama.cpp di M2 Max 96GB
Untuk pekerjaan sehari-hari, ini cukup stabil. Dulu Ollama memanggil llama.cpp lewat shell, tetapi sekarang dengan peralihan native ke MLX sepertinya efisiensi memorinya akan membaik
Saya berencana membandingkannya dengan jalur gguf pada model besar
Saya heran kenapa orang masih memakai Ollama
Lemonade atau llama.cpp lebih optimal dan kemudahan pakainya juga mirip
Saya penasaran apakah ada alternatif non-Mac yang bisa menjalankan model lokal dengan performa setingkat Mac
Saya penasaran bagaimana perbandingannya dengan engine inferensi MLX optiq terbaru
optiq mendukung Turboquantization
Saya ingin tahu perbandingan performa llama.cpp dan MLX
Meski begitu, dalam kebanyakan kasus peningkatan kecepatan lebih berharga
Saya menantikan hari ketika hanya dengan RAM 16GB saya bisa nyaman menjalankan Claude Code dengan LLM lokal di MacOS