3 poin oleh caaat 2026-03-12 | 7 komentar | Bagikan ke WhatsApp

Ini adalah postingan yang merangkum cara menjalankan model Gemma 3 secara lokal di perangkat iOS melalui MLC-LLM beserta metrik performa saat dijalankan secara nyata.

Ringkasan

  • Memanfaatkan MLC-LLM: Membangun lingkungan inferensi yang nyaman dengan latensi nyaris nol di perangkat mobile melalui akselerasi Metal API
  • Proses build Gemma 3 1B: Panduan alur kerja lengkap mulai dari mengunduh model Hugging Face, kuantisasi q4f16_1, penerapan template percakapan (gemma3_instruction), hingga kompilasi kernel Metal
  • Metrik performa dan sumber daya:
    • Gemma 2 2B: penggunaan VRAM sekitar 2.4GB
    • Gemma 3 1B: penggunaan VRAM sekitar 1.14GB
  • Tips menjalankan: Termasuk cara memaketkan model kustom ke proyek Xcode melalui pengaturan mlc-package-config.json

Evaluasi

  • Dengan memanfaatkan MLC-LLM, LLM berperforma tinggi bisa langsung dipindahkan ke perangkat iOS sehingga keunggulan privasi dan eksekusi offline bisa didapat sekaligus
  • Model ini tampak agak kesulitan menghasilkan respons terstruktur seperti format JSON
  • Untuk dimanfaatkan pada fitur yang memerlukan system prompt kompleks atau tugas ekstraksi data, tampaknya diperlukan pekerjaan tambahan seperti prompt engineering atau fine-tuning lanjutan
  • Ke depannya, jika diiringi dengan penyambungan pipeline khusus model dan optimalisasi proyek, diharapkan layanan AI on-device yang lebih praktis dapat dibangun

7 komentar

 
wedding 2026-03-17

Saya menjalankan qwen 3 0.6b q5 di Galaxy Fold 4, tetapi sejauh ini rasanya masih agak kurang memuaskan.

 
dolsangodkimchi 2026-03-18

Saya penasaran, di bagian mana yang terasa kurang memuaskan.
Apakah karena modelnya terlalu kecil sehingga performa LLM terasa kurang, atau karena performa eksekusinya saat dijalankan secara lokal yang terasa kurang?

 
wedding 2026-03-20

Performa masih kurang memuaskan. Dukungan untuk GPU atau NPU tertentu juga belum ada, jadi lambat..

 
newbie1004 2026-03-13

Saya sedang meneliti model gemma3 1b int4 di Galaxy Note 20 Ultra.

Tingkat performanya masih sebatas bisa berjalan di model lama.

 
kaboom45 2026-03-14

Oh, apakah akselerasi Vulkan didukung?

 
kji96 2026-03-13

Bukankah akan sulit menggunakannya dengan lancar di Galaxy Note20 sampai ada model yang berjalan baik pada CPU dengan spesifikasi lebih rendah (yang dioptimalkan dengan baik)?

Melihat isi di atas, tertulis bahwa itu dibuat untuk kernel Metal khusus Mac.
Setahu saya, jika menggunakan MLX, waktu pemuatan dan eksekusinya bisa lebih cepat dibanding GGUF biasa.

 
newbie1004 2026-03-13

Tapi sampai 4b masih agak nanggung ;;