Meta merilis model Llama terkuantisasi dengan kecepatan lebih tinggi dan penggunaan memori lebih rendah

(ai.meta.com)

2 poin oleh GN⁺ 2024-10-25 | Belum ada komentar. | Bagikan ke WhatsApp

Meta meluncurkan model Llama terkuantisasi yang diringankan dan dapat dijalankan di perangkat seluler
Disesuaikan untuk aplikasi dengan konteks pendek 8K atau kurang
Model terkuantisasi mencapai peningkatan kecepatan 2-4x, pengurangan ukuran model 56%, dan penurunan penggunaan memori 41%.
Teknik kuantisasi
- Untuk model Llama 3.2 1B dan 3B, digunakan teknik Quantization-Aware Training(QAT) dan SpinQuant.
- QAT memprioritaskan akurasi, sedangkan SpinQuant memprioritaskan portabilitas.
- Kedua teknik kuantisasi didukung melalui framework ExecuTorch milik PyTorch.
Optimasi perangkat seluler
- Dirancang agar dapat berjalan di SoC Qualcomm dan MediaTek.
- Hasil pengujian pada Android OnePlus 12 menunjukkan ukuran model dan penggunaan memori berkurang secara signifikan.
- Performa dioptimalkan dengan memanfaatkan CPU dan NPU seluler.
Konfigurasi kuantisasi
- Dirancang dengan mempertimbangkan framework inferensi ExecuTorch milik PyTorch dan backend Arm CPU.
- Semua linear layer dikuantisasi dalam grup 4-bit, dan aktivasi menggunakan kuantisasi dinamis 8-bit.
Quantization-Aware Training(QAT) dan LoRA
- Menggunakan QAT yang mensimulasikan efek kuantisasi selama pelatihan model Llama 3.2 untuk mengoptimalkan performa di lingkungan presisi rendah
- Untuk inisialisasi QAT, digunakan checkpoint model BF16 Llama 3.2 dan dilakukan pelatihan SFT tambahan dengan QAT
- Backbone model QAT dibekukan lalu SFT dilakukan sekali lagi dengan adapter LoRA diterapkan
- QAT dilakukan menggunakan API torchao
SpinQuant
- Akurasinya lebih rendah dibanding QAT + LoRA, tetapi memiliki portabilitas tinggi karena dapat bekerja tanpa akses ke dataset.
- Model dapat dikuantisasi sesuai berbagai target hardware dan use case.
Hasil
- Pendekatan QLoRA menunjukkan kualitas terbaik secara keseluruhan
- Dibanding BF16, latensi decode membaik rata-rata 2.5x dan latensi prefill membaik 4.2x
- Ukuran model berkurang rata-rata 56%, dan penggunaan memori turun 41%
- Diukur pada perangkat Android OnePlus 12; pada perangkat iOS akurasi serupa, tetapi performanya tidak dievaluasi

Ringkasan GN⁺

Model Llama terkuantisasi dari Meta menargetkan peringanan dan optimasi performa untuk dijalankan di perangkat seluler
Melalui teknik QAT dan SpinQuant, Meta menyediakan model terkuantisasi yang mempertimbangkan baik akurasi maupun portabilitas
Dengan memanfaatkan CPU dan NPU seluler, performa dimaksimalkan sekaligus mendukung penggunaan di berbagai hardware
Melalui kolaborasi erat dengan berbagai platform seluler dan mitra, tampaknya Meta telah menghadirkan solusi yang siap diterapkan pada produk nyata
Model Llama dari Meta dinilai kompetitif dalam hal keterbukaan, kemudahan modifikasi, dan efisiensi biaya, dan diharapkan terus menghadirkan pengalaman AI mobile yang kuat lewat inovasi berkelanjutan

Meta merilis model Llama terkuantisasi dengan kecepatan lebih tinggi dan penggunaan memori lebih rendah

Ringkasan GN⁺

Bacaan terkait

Belum ada komentar.