ANEMLL - Proyek open source untuk menjalankan LLM di Apple Neural Engine

(github.com/Anemll)

3 poin oleh GN⁺ 2025-05-05 | 1 komentar | Bagikan ke WhatsApp

Menyediakan pipeline inferensi LLM yang dapat dijalankan di Apple Neural Engine (ANE)
Memungkinkan inferensi on-device di aplikasi berbasis Swift/C++ maupun aplikasi iOS/macOS berdasarkan model Hugging Face
Versi terbaru 0.3.0 Alpha mencakup alat untuk mengonversi model Hugging Face ke format CoreML, implementasi CLI inferensi berbasis Swift, sampel aplikasi iOS/macOS, kode uji Python, dan alat benchmark
Mendukung model LLaMA 3.2 (1B / 8B) serta Distilled DeepSeek R1 8B/DeepHermes 3B dan 8B, dengan rencana diperluas ke lebih banyak arsitektur model ke depannya
Bertujuan menyediakan framework yang fleksibel dan mudah untuk mengonversi model Hugging Face agar dapat digunakan di ANE

1 komentar

GN⁺ 2025-05-05

Opini Hacker News

Penasaran apakah ada tindak lanjut atas klaim Apple bahwa model yang dioptimalkan untuk ANE "hingga 10x lebih cepat dan penggunaan memori 14x lebih rendah"
- MLX dan llama.cpp tidak mendukung ANE
- llama.cpp sedang mengeksplorasi ide ini
- MLX, meskipun dibuat oleh Apple, tetap tidak bisa mendukung ANE
Saat laptop Snapdragon X dirilis, ada klaim bahwa NPU akan digunakan untuk LLM
- Percaya pada klaim Qualcomm, tetapi kenyataannya model hanya berjalan di CPU
- NPU hanya efisien daya untuk model kecil, dan tidak cocok untuk model besar
- Dukungan Vulkan adalah satu-satunya harapan
Merasa neural engine adalah silikon yang terbuang sia-sia
- Bisa saja menambah lebih banyak core GPU dan mengalihkan API pemrosesan neural ke GPU sesuai kebutuhan
- Ingin belajar jika ada pendapat lain
Keuntungan utamanya adalah penggunaan daya yang jauh lebih rendah
- Hasil benchmark pada M1 Max dan M4 Pro menunjukkan GPU lebih cepat, tetapi konsumsi dayanya besar
- Model ANE dibatasi hingga 512 token sehingga masih sulit dipakai di produksi
README tidak memuat informasi yang paling penting
- Penasaran berapa token/detik yang bisa dicapai dibandingkan llama.cpp / MLX pada kuantisasi yang sama
- Hanya layak beralih dari platform utama jika ada peningkatan besar
Mencoba mencari tahu apa rahasia dari teknologi ini
- Penasaran apakah kuncinya ada pada ketergantungan terhadap coremltools, atau ada teknik penting lain
Unified memory Apple menyediakan RAM yang cukup untuk menjalankan model besar yang biasanya memerlukan beberapa GPU
Penasaran apakah coreml memanfaatkan ANE
- Penasaran apakah ada bottleneck di coreml yang memerlukan akses tingkat rendah
Penasaran apakah ada keuntungan performa untuk kecepatan inferensi di MacBook seri M
- Penasaran apakah tujuan utamanya adalah membuat inferensi berjalan di platform lain (iOS, dll.)
- Jika memang ada keuntungan performa, ingin melihat perbandingan token/detik dengan Ollama
Kontrol ketat Apple atas ANE cukup mengejutkan
- Berharap suatu hari orang benar-benar bisa memakainya
- Penasaran apakah perusahaan menyembunyikan teknologi demi mempertahankan kontrol, atau memang ada alasan teknis yang besar

ANEMLL - Proyek open source untuk menjalankan LLM di Apple Neural Engine

Bacaan terkait

1 komentar

Opini Hacker News