Menjalankan LLM lokal (Gemma 3) di iOS dengan MLC-LLM
(blog.devstory.co.kr)Ini adalah postingan yang merangkum cara menjalankan model Gemma 3 secara lokal di perangkat iOS melalui MLC-LLM beserta metrik performa saat dijalankan secara nyata.
Ringkasan
- Memanfaatkan MLC-LLM: Membangun lingkungan inferensi yang nyaman dengan latensi nyaris nol di perangkat mobile melalui akselerasi Metal API
- Proses build Gemma 3 1B: Panduan alur kerja lengkap mulai dari mengunduh model Hugging Face, kuantisasi q4f16_1, penerapan template percakapan (gemma3_instruction), hingga kompilasi kernel Metal
- Metrik performa dan sumber daya:
- Gemma 2 2B: penggunaan VRAM sekitar 2.4GB
- Gemma 3 1B: penggunaan VRAM sekitar 1.14GB
- Tips menjalankan: Termasuk cara memaketkan model kustom ke proyek Xcode melalui pengaturan
mlc-package-config.json
Evaluasi
- Dengan memanfaatkan MLC-LLM, LLM berperforma tinggi bisa langsung dipindahkan ke perangkat iOS sehingga keunggulan privasi dan eksekusi offline bisa didapat sekaligus
- Model ini tampak agak kesulitan menghasilkan respons terstruktur seperti format JSON
- Untuk dimanfaatkan pada fitur yang memerlukan system prompt kompleks atau tugas ekstraksi data, tampaknya diperlukan pekerjaan tambahan seperti prompt engineering atau fine-tuning lanjutan
- Ke depannya, jika diiringi dengan penyambungan pipeline khusus model dan optimalisasi proyek, diharapkan layanan AI on-device yang lebih praktis dapat dibangun
7 komentar
Saya menjalankan qwen 3 0.6b q5 di Galaxy Fold 4, tetapi sejauh ini rasanya masih agak kurang memuaskan.
Saya penasaran, di bagian mana yang terasa kurang memuaskan.
Apakah karena modelnya terlalu kecil sehingga performa LLM terasa kurang, atau karena performa eksekusinya saat dijalankan secara lokal yang terasa kurang?
Performa masih kurang memuaskan. Dukungan untuk GPU atau NPU tertentu juga belum ada, jadi lambat..
Saya sedang meneliti model gemma3 1b int4 di Galaxy Note 20 Ultra.
Tingkat performanya masih sebatas bisa berjalan di model lama.
Oh, apakah akselerasi Vulkan didukung?
Bukankah akan sulit menggunakannya dengan lancar di Galaxy Note20 sampai ada model yang berjalan baik pada CPU dengan spesifikasi lebih rendah (yang dioptimalkan dengan baik)?
Melihat isi di atas, tertulis bahwa itu dibuat untuk kernel Metal khusus Mac.
Setahu saya, jika menggunakan MLX, waktu pemuatan dan eksekusinya bisa lebih cepat dibanding GGUF biasa.
Tapi sampai 4b masih agak nanggung ;;