- Meta meluncurkan model Llama terkuantisasi yang diringankan dan dapat dijalankan di perangkat seluler
- Disesuaikan untuk aplikasi dengan konteks pendek 8K atau kurang
- Model terkuantisasi mencapai peningkatan kecepatan 2-4x, pengurangan ukuran model 56%, dan penurunan penggunaan memori 41%.
- Teknik kuantisasi
- Untuk model Llama 3.2 1B dan 3B, digunakan teknik Quantization-Aware Training(QAT) dan SpinQuant.
- QAT memprioritaskan akurasi, sedangkan SpinQuant memprioritaskan portabilitas.
- Kedua teknik kuantisasi didukung melalui framework ExecuTorch milik PyTorch.
- Optimasi perangkat seluler
- Dirancang agar dapat berjalan di SoC Qualcomm dan MediaTek.
- Hasil pengujian pada Android OnePlus 12 menunjukkan ukuran model dan penggunaan memori berkurang secara signifikan.
- Performa dioptimalkan dengan memanfaatkan CPU dan NPU seluler.
- Konfigurasi kuantisasi
- Dirancang dengan mempertimbangkan framework inferensi ExecuTorch milik PyTorch dan backend Arm CPU.
- Semua linear layer dikuantisasi dalam grup 4-bit, dan aktivasi menggunakan kuantisasi dinamis 8-bit.
- Quantization-Aware Training(QAT) dan LoRA
- Menggunakan QAT yang mensimulasikan efek kuantisasi selama pelatihan model Llama 3.2 untuk mengoptimalkan performa di lingkungan presisi rendah
- Untuk inisialisasi QAT, digunakan checkpoint model BF16 Llama 3.2 dan dilakukan pelatihan SFT tambahan dengan QAT
- Backbone model QAT dibekukan lalu SFT dilakukan sekali lagi dengan adapter LoRA diterapkan
- QAT dilakukan menggunakan API
torchao
- SpinQuant
- Akurasinya lebih rendah dibanding QAT + LoRA, tetapi memiliki portabilitas tinggi karena dapat bekerja tanpa akses ke dataset.
- Model dapat dikuantisasi sesuai berbagai target hardware dan use case.
- Hasil
- Pendekatan QLoRA menunjukkan kualitas terbaik secara keseluruhan
- Dibanding BF16, latensi decode membaik rata-rata 2.5x dan latensi prefill membaik 4.2x
- Ukuran model berkurang rata-rata 56%, dan penggunaan memori turun 41%
- Diukur pada perangkat Android OnePlus 12; pada perangkat iOS akurasi serupa, tetapi performanya tidak dievaluasi
Ringkasan GN⁺
- Model Llama terkuantisasi dari Meta menargetkan peringanan dan optimasi performa untuk dijalankan di perangkat seluler
- Melalui teknik QAT dan SpinQuant, Meta menyediakan model terkuantisasi yang mempertimbangkan baik akurasi maupun portabilitas
- Dengan memanfaatkan CPU dan NPU seluler, performa dimaksimalkan sekaligus mendukung penggunaan di berbagai hardware
- Melalui kolaborasi erat dengan berbagai platform seluler dan mitra, tampaknya Meta telah menghadirkan solusi yang siap diterapkan pada produk nyata
- Model Llama dari Meta dinilai kompetitif dalam hal keterbukaan, kemudahan modifikasi, dan efisiensi biaya, dan diharapkan terus menghadirkan pengalaman AI mobile yang kuat lewat inovasi berkelanjutan
Belum ada komentar.