Menjalankan LLM lokal (Gemma 3) di iOS dengan MLC-LLM

(blog.devstory.co.kr)

3 poin oleh caaat 2026-03-12 | 8 komentar | Bagikan ke WhatsApp

Ini adalah postingan yang merangkum cara menjalankan model Gemma 3 secara lokal di perangkat iOS melalui MLC-LLM beserta metrik performa saat dijalankan secara nyata.

Ringkasan

Memanfaatkan MLC-LLM: Membangun lingkungan inferensi yang nyaman dengan latensi nyaris nol di perangkat mobile melalui akselerasi Metal API
Proses build Gemma 3 1B: Panduan alur kerja lengkap mulai dari mengunduh model Hugging Face, kuantisasi q4f16_1, penerapan template percakapan (gemma3_instruction), hingga kompilasi kernel Metal
Metrik performa dan sumber daya:
- Gemma 2 2B: penggunaan VRAM sekitar 2.4GB
- Gemma 3 1B: penggunaan VRAM sekitar 1.14GB
Tips menjalankan: Termasuk cara memaketkan model kustom ke proyek Xcode melalui pengaturan mlc-package-config.json

Evaluasi

Dengan memanfaatkan MLC-LLM, LLM berperforma tinggi bisa langsung dipindahkan ke perangkat iOS sehingga keunggulan privasi dan eksekusi offline bisa didapat sekaligus
Model ini tampak agak kesulitan menghasilkan respons terstruktur seperti format JSON
Untuk dimanfaatkan pada fitur yang memerlukan system prompt kompleks atau tugas ekstraksi data, tampaknya diperlukan pekerjaan tambahan seperti prompt engineering atau fine-tuning lanjutan
Ke depannya, jika diiringi dengan penyambungan pipeline khusus model dan optimalisasi proyek, diharapkan layanan AI on-device yang lebih praktis dapat dibangun

8 komentar

wedding 2026-03-17

Saya menjalankan qwen 3 0.6b q5 di Galaxy Fold 4, tetapi sejauh ini rasanya masih agak kurang memuaskan.

dolsangodkimchi 2026-03-18

Saya penasaran, di bagian mana yang terasa kurang memuaskan.
Apakah karena modelnya terlalu kecil sehingga performa LLM terasa kurang, atau karena performa eksekusinya saat dijalankan secara lokal yang terasa kurang?

wedding 2026-03-20

Performa masih kurang memuaskan. Dukungan untuk GPU atau NPU tertentu juga belum ada, jadi lambat..

newbie1004 2026-03-13

Saya sedang meneliti model gemma3 1b int4 di Galaxy Note 20 Ultra.

Tingkat performanya masih sebatas bisa berjalan di model lama.

kaboom45 2026-03-14

Oh, apakah akselerasi Vulkan didukung?

wedding 2026-03-24

Katanya bisa, tapi di saya tidak bisa T_T

kji96 2026-03-13

Bukankah akan sulit menggunakannya dengan lancar di Galaxy Note20 sampai ada model yang berjalan baik pada CPU dengan spesifikasi lebih rendah (yang dioptimalkan dengan baik)?

Melihat isi di atas, tertulis bahwa itu dibuat untuk kernel Metal khusus Mac.
Setahu saya, jika menggunakan MLX, waktu pemuatan dan eksekusinya bisa lebih cepat dibanding GGUF biasa.