Model Gemma 3 QAT: menghadirkan AI mutakhir ke GPU konsumen

Gemma 3 yang diumumkan bulan lalu adalah model AI terbuka dengan performa mutakhir, dan dapat dijalankan bahkan pada satu GPU berperforma tinggi seperti NVIDIA H100
Dirilis versi ringan yang menerapkan teknik QAT (Quantization-Aware Training) sehingga kini bisa dijalankan di GPU konsumen
Berkat kuantisasi int4, penggunaan memori berkurang drastis dengan penurunan performa yang minimal
Model QAT dapat berjalan pada GPU umum seperti RTX 3090 dan RTX 4060, serta bisa langsung digunakan di Hugging Face, Ollama, LM Studio, dan lainnya
Beragam model PTQ versi komunitas juga disediakan, sehingga pilihan menjadi lebih fleksibel

Pengenalan Gemma 3 dan gambaran performa

Gemma 3, model terbuka terbaru yang diumumkan Google, adalah model bahasa besar dengan performa unggul
Dengan presisi BF16 (floating point 16-bit), model ini dapat dijalankan di GPU NVIDIA H100 dan mencatat skor Chatbot Arena Elo yang sangat baik
Alasan penggunaan BF16 adalah untuk memastikan perbandingan performa antar-model tetap adil, sehingga performa asli model dapat dibandingkan tanpa berbagai metode optimasi tambahan

Model besar sebelumnya memerlukan lingkungan cloud berspesifikasi tinggi, tetapi teknik QAT diterapkan agar bisa dijalankan juga di perangkat keras konsumen
Kuantisasi (Quantization) mengurangi presisi nilai di dalam model untuk menurunkan penggunaan memori dan mempercepat eksekusi
Contoh: saat menggunakan format int4 alih-alih BF16, terjadi efek kompresi lebih dari 4x

Alih-alih kuantisasi pascapemrosesan sederhana, digunakan pendekatan QAT (Quantization-Aware Training) yang mencerminkan kuantisasi selama pelatihan
Selama proses pelatihan, probabilitas prediksi dari checkpoint yang tidak dikuantisasi digunakan sebagai nilai target selama sekitar 5.000 step
Dengan cara ini, pada kuantisasi Q4_0 berhasil dicapai pengurangan laju penurunan Perplexity sebesar 54%

Efek penghematan VRAM akibat kuantisasi int4 sangat besar, dengan penurunan untuk tiap model sebagai berikut:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
Angka ini hanya mencakup VRAM yang dibutuhkan untuk memuat bobot model, sedangkan KV cache yang diperlukan saat eksekusi memerlukan VRAM tambahan

Gemma 3 27B (int4): dapat dijalankan secara lokal di RTX 3090 (24GB VRAM)
Gemma 3 12B (int4): juga berjalan tanpa masalah di RTX 4060 Laptop (8GB VRAM)
Gemma 3 4B, 1B: dapat dijalankan pada smartphone dan perangkat berspesifikasi rendah

Selain model QAT resmi, tersedia juga beragam model PTQ komunitas
Kontributor utama: Bartowski, Unsloth, GGML
Berbagai model ini dapat dipilih sesuai keseimbangan kecepatan, ukuran, dan kualitas

Sebagai langkah penting untuk demokratisasi AI, versi QAT dari Gemma 3 dapat dijalankan secara lokal oleh siapa saja
Cara menjalankan:
- PC: Ollama
- Unduh model: Hugging Face, Kaggle
- Jalankan di mobile: gunakan Google AI Edge