Rapid-MLX - Mesin AI lokal supercepat khusus Apple Silicon

xguru · 2026-05-12T09:46:02+09:00

Mesin inferensi untuk menjalankan model AI lokal di Mac Apple Silicon, memanfaatkan kernel komputasi Metal native berbasis framework MLX dari Apple Kecepatan inferensi hingga 4,2x lebih cepat dibanding Ollama — berdasarkan Phi-4 Mini 14B mencapai 180 tok/s (3,2x dibanding Ollama 56 tok/s), berdasarkan Qwen3.5-9B mencapai 108 tok/s (2,6x dibanding Ollama 41 tok/s) Dalam keadaan cache, TTFT 0,08 detik (berdasarkan Kimi-Linear-48B), dan pada sebagian besar model berada di kisaran 0,1~0,3 detik Parser pemanggilan 17 tool bawaan dan deteksi otomatis berbasis nama model — bahkan jika model kuantisasi 4bit mengeluarkan tool call yang rusak sebagai teks, sistem akan otomatis memulihkannya ke format terstruktur Menyediakan pemetaan model optimal berdasarkan RAM, mulai dari MacBook Air 16GB (Qwen3.5-4B, 160 tok/s) hingga Mac Studio Ultra 256GB (DeepSeek V4 Flash 158B, 31 tok/s, konteks 1M) 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → penggunaan RAM 2,4GB, 160 tok/s, mendukung chat, coding, dan tool call 24GB MacBook Pro: Qwen3.5-9B 4bit → 5,1GB, 108 tok/s, model serbaguna 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15,3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, 100% tool call), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 expert MoE, konteks 262K) 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, keseimbangan terbaik antara pintar + cepat 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, kecerdasan kelas frontier 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier day-0 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) atau DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, konteks 1M) 4bit untuk penghematan memori (direkomendasikan dalam kebanyakan kasus), 8bit untuk inferensi berkualitas tinggi, mxfp4 adalah format 4bit berkualitas tinggi Fitur pemisahan reasoning yang memisahkan proses penalaran model chain-of-thought ke field reasoning_content terpisah — mendukung format Qwen3, DeepSeek-R1, MiniMax, GPT-OSS Dengan KV cache trimming untuk transformer standar dan snapshot status DeltaNet untuk arsitektur hibrida Qwen3.5 (~0,1ms pemulihan), TTFT percakapan multi-turn meningkat 2~5x tanpa flag tambahan dan selalu aktif Mendukung smart cloud routing yang otomatis mengalihkan permintaan konteks besar ketika prefill lokal lambat ke cloud LLM seperti GPT-5, Claude, dan lainnya Pengganti drop-in untuk OpenAI API — aplikasi yang kompatibel dengan OpenAI seperti Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI dapat langsung terhubung ke localhost:8000/v1 Mendukung ekspansi multimodal dan opsi seperti Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, serta pembuatan JSON dengan batasan skema Menyertakan berbagai teknik optimasi seperti TurboQuant V-cache (penghematan memori 86%), kuantisasi KV cache, prefill chunking, tool logits bias, dan lainnya Menyediakan MHI (Model-Harness Index) untuk mengukur kompatibilitas model + agent harness — Qwopus 27B mencatat skor tertinggi dengan MHI 92 Teknik akselerasi tambahan seperti Speculative Decode (1,5~2,3x), EAGLE-3 (3~6,5x), dan ReDrafter (1,4~1,5x) termasuk dalam roadmap Lisensi Apache 2.0

(github.com/raullenchai)

13 poin oleh xguru 7 jam lalu | 3 komentar | Bagikan ke WhatsApp

Mesin inferensi untuk menjalankan model AI lokal di Mac Apple Silicon, memanfaatkan kernel komputasi Metal native berbasis framework MLX dari Apple
Kecepatan inferensi hingga 4,2x lebih cepat dibanding Ollama — berdasarkan Phi-4 Mini 14B mencapai 180 tok/s (3,2x dibanding Ollama 56 tok/s), berdasarkan Qwen3.5-9B mencapai 108 tok/s (2,6x dibanding Ollama 41 tok/s)
Dalam keadaan cache, TTFT 0,08 detik (berdasarkan Kimi-Linear-48B), dan pada sebagian besar model berada di kisaran 0,1~0,3 detik
Parser pemanggilan 17 tool bawaan dan deteksi otomatis berbasis nama model — bahkan jika model kuantisasi 4bit mengeluarkan tool call yang rusak sebagai teks, sistem akan otomatis memulihkannya ke format terstruktur
Menyediakan pemetaan model optimal berdasarkan RAM, mulai dari MacBook Air 16GB (Qwen3.5-4B, 160 tok/s) hingga Mac Studio Ultra 256GB (DeepSeek V4 Flash 158B, 31 tok/s, konteks 1M)
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → penggunaan RAM 2,4GB, 160 tok/s, mendukung chat, coding, dan tool call
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5,1GB, 108 tok/s, model serbaguna
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15,3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, 100% tool call), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 expert MoE, konteks 262K)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, keseimbangan terbaik antara pintar + cepat
- 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, kecerdasan kelas frontier
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier day-0
- 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) atau DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, konteks 1M)
- 4bit untuk penghematan memori (direkomendasikan dalam kebanyakan kasus), 8bit untuk inferensi berkualitas tinggi, mxfp4 adalah format 4bit berkualitas tinggi
Fitur pemisahan reasoning yang memisahkan proses penalaran model chain-of-thought ke field reasoning_content terpisah — mendukung format Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
Dengan KV cache trimming untuk transformer standar dan snapshot status DeltaNet untuk arsitektur hibrida Qwen3.5 (~0,1ms pemulihan), TTFT percakapan multi-turn meningkat 2~5x tanpa flag tambahan dan selalu aktif
Mendukung smart cloud routing yang otomatis mengalihkan permintaan konteks besar ketika prefill lokal lambat ke cloud LLM seperti GPT-5, Claude, dan lainnya
Pengganti drop-in untuk OpenAI API — aplikasi yang kompatibel dengan OpenAI seperti Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI dapat langsung terhubung ke localhost:8000/v1
Mendukung ekspansi multimodal dan opsi seperti Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, serta pembuatan JSON dengan batasan skema
Menyertakan berbagai teknik optimasi seperti TurboQuant V-cache (penghematan memori 86%), kuantisasi KV cache, prefill chunking, tool logits bias, dan lainnya
Menyediakan MHI (Model-Harness Index) untuk mengukur kompatibilitas model + agent harness — Qwopus 27B mencatat skor tertinggi dengan MHI 92
Teknik akselerasi tambahan seperti Speculative Decode (1,5~2,3x), EAGLE-3 (3~6,5x), dan ReDrafter (1,4~1,5x) termasuk dalam roadmap
Lisensi Apache 2.0

3 komentar

parkindani 3 jam lalu

Saya penasaran bagaimana performanya jika dibandingkan dengan omlx.

xguru 6 jam lalu

Secara pribadi saya sedang mencoba menjalankan deepseek4 dengan antirez/ds4, dan hasilnya menunjukkan bahwa kecepatan di sisi ds4 memang sedikit lebih cepat.

ds4 khusus untuk 128gb jadi agak nanggung, tapi sepertinya bagus untuk model-model lainnya.

Baru-baru ini, tweet CEO HuggingFace yang mengatakan bahwa mencoba coding di pesawat dengan Qwen3.6 27B terasa setara Opus cukup populer, jadi saya juga harus coba menjalankan 3.6 27B di ini. https://x.com/julien_c/status/2047647522173104145

yangeok 7 jam lalu

Saya penasaran bagaimana performanya untuk bahasa Korea.. Saya memakai yang 96GB, tapi performanya pasti masih kalah dibanding LLM berbayar, ya..?

dengan level seperti Gemini CLI saja sepertinya sudah cukup bagus hehe

Rapid-MLX - Mesin AI lokal supercepat khusus Apple Silicon

Bacaan terkait

3 komentar