5 poin oleh GN⁺ 20 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Versi pratinjau Ollama berbasis framework Apple MLX telah dirilis, menghadirkan peningkatan performa dengan memanfaatkan arsitektur memori terpadu di Apple Silicon
  • Melalui GPU Neural Accelerator pada chip seri M5, TTFT (waktu hingga token pertama) dan kecepatan generasi token sama-sama meningkat
  • Dukungan format NVFP4 mengurangi kebutuhan bandwidth memori dan penyimpanan sambil mempertahankan akurasi model, serta memungkinkan menjalankan model yang dioptimalkan dengan NVIDIA Model Optimizer
  • Penggunaan ulang cache dan kebijakan cache cerdas meningkatkan efisiensi memori antar percakapan dan kecepatan respons, sekaligus menaikkan cache hit rate untuk prompt bersama
  • Ke depannya, dukungan arsitektur akan diperluas dengan menambahkan lebih banyak model dan fitur impor model kustom

Pratinjau Ollama yang berjalan berbasis MLX di Apple Silicon

  • Versi pratinjau baru Ollama berbasis framework MLX milik Apple telah dirilis
    • Memungkinkan menjalankan asisten pribadi (OpenClaw) atau coding agent (Claude Code, OpenCode, Codex, dll.) lebih cepat di macOS
    • Meningkatkan performa dengan memanfaatkan arsitektur memori terpadu di Apple Silicon
  • Peningkatan performa di Apple Silicon

    • Ollama berjalan di atas framework machine learning MLX dari Apple, dan memanfaatkan GPU Neural Accelerator pada chip M5, M5 Pro, dan M5 Max untuk mempercepat TTFT (waktu hingga token pertama) serta kecepatan generasi token
    • Pada pengujian tanggal 29 Maret 2026, model Qwen3.5-35B-A3B dari Alibaba (kuantisasi NVFP4) dibandingkan dengan implementasi Ollama sebelumnya (Q4_K_M)
    • Ollama versi 0.19 mencatat performa prefill 1851 token/s dan decode 134 token/s saat menjalankan int4
  • Dukungan NVFP4

    • Mendukung format NVFP4 dari NVIDIA untuk mencapai akurasi model tetap terjaga sekaligus mengurangi kebutuhan bandwidth memori dan penyimpanan
    • Menjamin konsistensi hasil antara lingkungan inferensi yang menggunakan NVFP4 dan lingkungan produksi
    • Dapat menjalankan model yang dioptimalkan dengan Model Optimizer dari NVIDIA
    • Presisi lain juga akan ditambahkan sesuai desain dan kebutuhan mitra riset serta hardware Ollama
  • Peningkatan sistem cache

    • Penggunaan ulang cache mengurangi penggunaan memori antar percakapan, dan meningkatkan cache hit rate saat memakai system prompt bersama
    • Memperkenalkan checkpoint cerdas untuk mengurangi pemrosesan prompt dan meningkatkan kecepatan respons
    • Dengan kebijakan penghapusan cache cerdas, prefix bersama bisa dipertahankan lebih lama meskipun branch lama dihapus
  • Cara memulai

    • Unduh Ollama 0.19
    • Model Qwen3.5-35B-A3B baru telah dituning dengan parameter sampling agar cocok untuk tugas coding
    • Membutuhkan Mac dengan memori terpadu 32GB atau lebih
    • Contoh menjalankan:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • Percakapan dengan model: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • Rencana ke depan

    • Dukungan untuk lebih banyak model akan ditambahkan
    • Fitur impor model kustom berbasis arsitektur yang didukung akan ditambahkan
    • Daftar arsitektur yang didukung akan terus diperluas
  • Ucapan terima kasih

    • Tim kontributor MLX atas pengembangan framework akselerasi
    • Tim NVIDIA atas kuantisasi NVFP4, optimasi model, dukungan MLX CUDA, optimasi Ollama, dan pengujian
    • Tim GGML dan llama.cpp atas pembangunan framework lokal dan komunitas
    • Tim Alibaba Qwen atas penyediaan model open source dan kolaborasi

1 komentar

 
GN⁺ 20 hari lalu
Komentar Hacker News
  • "apfel" buatan saya adalah CLI untuk foundation model lokal on-device milik Apple
    Memang ada guardrail yang berlebihan seperti batas konteks 4k dan bahkan pembatasan deskripsi warna, tetapi rasanya sangat kuat karena bisa langsung dipakai dari skrip bash tanpa panggilan eksternal

    • Jujur saja, sulit dipercaya Apple merilis produknya dalam kondisi seperti ini
      Saya juga sempat berharap banyak, tetapi setelah mencobanya saya sangat kecewa. Sekarang Apple tampaknya sudah benar-benar beralih ke Gemini, jadi saya justru merasa itu hal yang baik
    • Proyek yang keren. Apakah ada rencana untuk distribusi lewat Homebrew?
  • Saya rasa LLM on-device adalah masa depan
    Keamanannya lebih kuat, konsumsi dayanya lebih rendah dibanding data center, dan juga bisa membantu meredakan masalah permintaan inferensi. Sebagian besar pengguna tidak membutuhkan performa model paling mutakhir

    • Keamanannya memang lebih tinggi, tetapi efisiensi penyediaannya justru bisa memburuk
      Data center hampir 100 kali lebih efisien daripada PC pribadi berkat batching GPU dan tingkat utilisasi yang tinggi
    • Dari sudut pandang perusahaan, model data center yang tersentralisasi masih bisa lebih masuk akal
      Namun, pendekatan hibrida tampak menjanjikan: model lokal menangani permintaan sederhana, dan yang kompleks diteruskan ke cloud
    • Belakangan ini saya memasang llama.cpp di M4 MBP untuk bereksperimen dengan model lokal
      Ada antarmuka bawaan bergaya ChatGPT, jadi berguna untuk pengujian cepat. Bahkan dengan RAM 16GB pun ada cukup banyak model yang berjalan lumayan baik
      Misalnya, Qwen 3.5 9B sangat ketat soal sensor, sedangkan versi Uncensored justru terlalu bebas, jadi menarik melihat bagaimana menyeimbangkannya
    • Dengan offloading ke SSD, model SOTA juga bisa dijalankan di PC konsumen
      Hanya saja bandwidth SSD menjadi bottleneck, jadi semakin banyak RAM untuk cache akan semakin baik. Jika Anda tidak masalah menunggu respons, ini cukup praktis
    • Saya sudah melakukan journaling digital selama 5 tahun dan sudah memperkirakan arah seperti ini
      Baru-baru ini saya membuat aplikasi graphRAG dengan menggabungkan Qwen 3.5 4B dan 27B, dan hasilnya cukup baik ketika tugas kecil dan tanya jawab dipisahkan
      Saya memakai MLX, dan terasa jauh lebih cepat saat melakukan pemrosesan batch untuk ekstraksi entitas
  • Senang melihat inferensi Ollama di Mac meningkat pesat berkat MLX
    Terutama fitur SSD KV caching dari omlx.ai benar-benar terasa seperti game changer
    Walaupun sesi sudah hilang dari memori, tidak perlu prefill ulang, dan berkat kecepatan prefill M5 Max yang tinggi, kini lebih banyak waktu bisa dipakai untuk generasi

  • Saya menjalankan qwen 70b 4-bit dengan llama.cpp di M2 Max 96GB
    Untuk pekerjaan sehari-hari, ini cukup stabil. Dulu Ollama memanggil llama.cpp lewat shell, tetapi sekarang dengan peralihan native ke MLX sepertinya efisiensi memorinya akan membaik
    Saya berencana membandingkannya dengan jalur gguf pada model besar

    • Saya penasaran berapa kecepatan generasi token per detiknya
    • Saat peluncuran awal, beberapa model GGUF sempat tertimpa sehingga unduhan terblokir di platform selain Apple Silicon. Semoga segera diperbaiki
  • Saya heran kenapa orang masih memakai Ollama
    Lemonade atau llama.cpp lebih optimal dan kemudahan pakainya juga mirip

  • Saya penasaran apakah ada alternatif non-Mac yang bisa menjalankan model lokal dengan performa setingkat Mac

    • Tidak di level yang sama. Di PC Anda butuh GPU kelas 5090, tetapi baik efisiensi token per biaya maupun efisiensi daya, Apple Silicon jauh lebih unggul
  • Saya penasaran bagaimana perbandingannya dengan engine inferensi MLX optiq terbaru
    optiq mendukung Turboquantization

  • Saya ingin tahu perbandingan performa llama.cpp dan MLX

    • MLX sedikit lebih cepat, tetapi penggunaan RAM-nya juga sedikit lebih besar
      Meski begitu, dalam kebanyakan kasus peningkatan kecepatan lebih berharga
  • Saya menantikan hari ketika hanya dengan RAM 16GB saya bisa nyaman menjalankan Claude Code dengan LLM lokal di MacOS

    • Saat ini saya dengar minimal perlu 32GB, jadi saya penasaran seberapa dekat kita ke titik itu