- Mesin inferensi berbasis Rust untuk menjalankan model AI dengan cepat di lingkungan Apple Silicon
- Arsitektur hibrida yang secara opsional memanfaatkan kernel GPU atau MPSGraph di bawah CoreML
- Menggunakan model dalam format miliknya sendiri, dan dapat dipakai dengan mengonversi berbagai model seperti Llama3 melalui alat
lalamo
- Menunjukkan keunggulan kecepatan dibandingkan llama.cpp dalam sebagian besar kasus, dan khususnya mencatat kecepatan pemrosesan 13 kali lebih cepat pada Qwen3-0.6B
- Melalui binding Swift, antarmuka CLI, dan API Rust, tersedia fleksibilitas untuk pengembangan dan integrasi
- Menjamin keandalan dan skalabilitas melalui konfigurasi modular, pemanfaatan unified memory pada perangkat Apple untuk memaksimalkan performa, serta penyediaan jalur inferensi yang dapat diverifikasi performanya
Belum ada komentar.