- Menyediakan pipeline inferensi LLM yang dapat dijalankan di Apple Neural Engine (ANE)
- Memungkinkan inferensi on-device di aplikasi berbasis Swift/C++ maupun aplikasi iOS/macOS berdasarkan model Hugging Face
- Versi terbaru 0.3.0 Alpha mencakup alat untuk mengonversi model Hugging Face ke format CoreML, implementasi CLI inferensi berbasis Swift, sampel aplikasi iOS/macOS, kode uji Python, dan alat benchmark
- Mendukung model LLaMA 3.2 (1B / 8B) serta Distilled DeepSeek R1 8B/DeepHermes 3B dan 8B, dengan rencana diperluas ke lebih banyak arsitektur model ke depannya
- Bertujuan menyediakan framework yang fleksibel dan mudah untuk mengonversi model Hugging Face agar dapat digunakan di ANE
1 komentar
Opini Hacker News
Penasaran apakah ada tindak lanjut atas klaim Apple bahwa model yang dioptimalkan untuk ANE "hingga 10x lebih cepat dan penggunaan memori 14x lebih rendah"
Saat laptop Snapdragon X dirilis, ada klaim bahwa NPU akan digunakan untuk LLM
Merasa neural engine adalah silikon yang terbuang sia-sia
Keuntungan utamanya adalah penggunaan daya yang jauh lebih rendah
README tidak memuat informasi yang paling penting
Mencoba mencari tahu apa rahasia dari teknologi ini
Unified memory Apple menyediakan RAM yang cukup untuk menjalankan model besar yang biasanya memerlukan beberapa GPU
Penasaran apakah coreml memanfaatkan ANE
Penasaran apakah ada keuntungan performa untuk kecepatan inferensi di MacBook seri M
Kontrol ketat Apple atas ANE cukup mengejutkan