Model Gemma 3 QAT: menghadirkan AI mutakhir ke GPU konsumen
(developers.googleblog.com)- Gemma 3 yang diumumkan bulan lalu adalah model AI terbuka dengan performa mutakhir, dan dapat dijalankan bahkan pada satu GPU berperforma tinggi seperti NVIDIA H100
- Dirilis versi ringan yang menerapkan teknik QAT (Quantization-Aware Training) sehingga kini bisa dijalankan di GPU konsumen
- Berkat kuantisasi int4, penggunaan memori berkurang drastis dengan penurunan performa yang minimal
- Model QAT dapat berjalan pada GPU umum seperti RTX 3090 dan RTX 4060, serta bisa langsung digunakan di Hugging Face, Ollama, LM Studio, dan lainnya
- Beragam model PTQ versi komunitas juga disediakan, sehingga pilihan menjadi lebih fleksibel
Pengenalan Gemma 3 dan gambaran performa
- Gemma 3, model terbuka terbaru yang diumumkan Google, adalah model bahasa besar dengan performa unggul
- Dengan presisi BF16 (floating point 16-bit), model ini dapat dijalankan di GPU NVIDIA H100 dan mencatat skor Chatbot Arena Elo yang sangat baik
- Alasan penggunaan BF16 adalah untuk memastikan perbandingan performa antar-model tetap adil, sehingga performa asli model dapat dibandingkan tanpa berbagai metode optimasi tambahan
Kuantisasi berbasis QAT untuk meningkatkan aksesibilitas
- Model besar sebelumnya memerlukan lingkungan cloud berspesifikasi tinggi, tetapi teknik QAT diterapkan agar bisa dijalankan juga di perangkat keras konsumen
- Kuantisasi (Quantization) mengurangi presisi nilai di dalam model untuk menurunkan penggunaan memori dan mempercepat eksekusi
- Contoh: saat menggunakan format int4 alih-alih BF16, terjadi efek kompresi lebih dari 4x
Menjaga kualitas dengan QAT
- Alih-alih kuantisasi pascapemrosesan sederhana, digunakan pendekatan QAT (Quantization-Aware Training) yang mencerminkan kuantisasi selama pelatihan
- Selama proses pelatihan, probabilitas prediksi dari checkpoint yang tidak dikuantisasi digunakan sebagai nilai target selama sekitar 5.000 step
- Dengan cara ini, pada kuantisasi Q4_0 berhasil dicapai pengurangan laju penurunan Perplexity sebesar 54%
Penurunan penggunaan VRAM yang drastis
-
Efek penghematan VRAM akibat kuantisasi int4 sangat besar, dengan penurunan untuk tiap model sebagai berikut:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
Angka ini hanya mencakup VRAM yang dibutuhkan untuk memuat bobot model, sedangkan KV cache yang diperlukan saat eksekusi memerlukan VRAM tambahan
Dapat dijalankan di berbagai perangkat
- Gemma 3 27B (int4): dapat dijalankan secara lokal di RTX 3090 (24GB VRAM)
- Gemma 3 12B (int4): juga berjalan tanpa masalah di RTX 4060 Laptop (8GB VRAM)
- Gemma 3 4B, 1B: dapat dijalankan pada smartphone dan perangkat berspesifikasi rendah
Integrasi dan penggunaan yang mudah
-
Model QAT bisa langsung digunakan di berbagai platform dan alat:
- Ollama: jalankan dengan satu baris perintah
- LM Studio: unduh dan jalankan di lingkungan GUI
- MLX: mendukung inferensi efisien tinggi di Apple Silicon
- Gemma.cpp: eksekusi berperforma tinggi di lingkungan CPU
- llama.cpp: integrasi mudah dalam format GGUF
Model komunitas di Gemmaverse
- Selain model QAT resmi, tersedia juga beragam model PTQ komunitas
- Kontributor utama: Bartowski, Unsloth, GGML
- Berbagai model ini dapat dipilih sesuai keseimbangan kecepatan, ukuran, dan kualitas
Bisa mulai sekarang juga
- Sebagai langkah penting untuk demokratisasi AI, versi QAT dari Gemma 3 dapat dijalankan secara lokal oleh siapa saja
- Cara menjalankan:
- PC: Ollama
- Unduh model: Hugging Face, Kaggle
- Jalankan di mobile: gunakan Google AI Edge
1 komentar
Komentar Hacker News
model gemma-3-27b-it-qat-4bit menjadi model pilihan baru bersama Mistral Small 3.1 24B
untuk pertanyaan "cek suasana" pribadi, model 4bit QAT 27B memberikan jawaban yang akurat
grafik pertama membandingkan "Elo Score" pada presisi BF16, dan grafik kedua membandingkan penggunaan VRAM
menggunakan gemma3:27b-it-qat alih-alih qwen2.5 untuk pekerjaan sehari-hari di Mac memori 32G
dijalankan pada CPU AMD 3950x 16-core, dan sangat mengesankan untuk terjemahan serta deskripsi gambar
setelah mengunduh QAT gemma3:27b terbaru, performa meningkat 1,47x
LLM lokal perlu diperlakukan sebagai warga kelas satu oleh perusahaan
Microsoft dan Apple mempromosikan AI PC dan Apple Intelligence, tetapi model yang benar-benar bisa digunakan di GPU konsumen pada praktiknya hanya memungkinkan di GPU kelas atas
Gemma 3 jauh lebih unggul daripada Llama 4
tersedia di Ollama