3 poin oleh GN⁺ 2025-05-05 | 1 komentar | Bagikan ke WhatsApp
  • Menyediakan pipeline inferensi LLM yang dapat dijalankan di Apple Neural Engine (ANE)
  • Memungkinkan inferensi on-device di aplikasi berbasis Swift/C++ maupun aplikasi iOS/macOS berdasarkan model Hugging Face
  • Versi terbaru 0.3.0 Alpha mencakup alat untuk mengonversi model Hugging Face ke format CoreML, implementasi CLI inferensi berbasis Swift, sampel aplikasi iOS/macOS, kode uji Python, dan alat benchmark
  • Mendukung model LLaMA 3.2 (1B / 8B) serta Distilled DeepSeek R1 8B/DeepHermes 3B dan 8B, dengan rencana diperluas ke lebih banyak arsitektur model ke depannya
  • Bertujuan menyediakan framework yang fleksibel dan mudah untuk mengonversi model Hugging Face agar dapat digunakan di ANE

1 komentar

 
GN⁺ 2025-05-05
Opini Hacker News
  • Penasaran apakah ada tindak lanjut atas klaim Apple bahwa model yang dioptimalkan untuk ANE "hingga 10x lebih cepat dan penggunaan memori 14x lebih rendah"

    • MLX dan llama.cpp tidak mendukung ANE
    • llama.cpp sedang mengeksplorasi ide ini
    • MLX, meskipun dibuat oleh Apple, tetap tidak bisa mendukung ANE
  • Saat laptop Snapdragon X dirilis, ada klaim bahwa NPU akan digunakan untuk LLM

    • Percaya pada klaim Qualcomm, tetapi kenyataannya model hanya berjalan di CPU
    • NPU hanya efisien daya untuk model kecil, dan tidak cocok untuk model besar
    • Dukungan Vulkan adalah satu-satunya harapan
  • Merasa neural engine adalah silikon yang terbuang sia-sia

    • Bisa saja menambah lebih banyak core GPU dan mengalihkan API pemrosesan neural ke GPU sesuai kebutuhan
    • Ingin belajar jika ada pendapat lain
  • Keuntungan utamanya adalah penggunaan daya yang jauh lebih rendah

    • Hasil benchmark pada M1 Max dan M4 Pro menunjukkan GPU lebih cepat, tetapi konsumsi dayanya besar
    • Model ANE dibatasi hingga 512 token sehingga masih sulit dipakai di produksi
  • README tidak memuat informasi yang paling penting

    • Penasaran berapa token/detik yang bisa dicapai dibandingkan llama.cpp / MLX pada kuantisasi yang sama
    • Hanya layak beralih dari platform utama jika ada peningkatan besar
  • Mencoba mencari tahu apa rahasia dari teknologi ini

    • Penasaran apakah kuncinya ada pada ketergantungan terhadap coremltools, atau ada teknik penting lain
  • Unified memory Apple menyediakan RAM yang cukup untuk menjalankan model besar yang biasanya memerlukan beberapa GPU

  • Penasaran apakah coreml memanfaatkan ANE

    • Penasaran apakah ada bottleneck di coreml yang memerlukan akses tingkat rendah
  • Penasaran apakah ada keuntungan performa untuk kecepatan inferensi di MacBook seri M

    • Penasaran apakah tujuan utamanya adalah membuat inferensi berjalan di platform lain (iOS, dll.)
    • Jika memang ada keuntungan performa, ingin melihat perbandingan token/detik dengan Ollama
  • Kontrol ketat Apple atas ANE cukup mengejutkan

    • Berharap suatu hari orang benar-benar bisa memakainya
    • Penasaran apakah perusahaan menyembunyikan teknologi demi mempertahankan kontrol, atau memang ada alasan teknis yang besar