Model Gemma 4 QAT: optimasi kompresi untuk efisiensi mobile dan laptop

(blog.google)

4 poin oleh GN⁺ 2026-06-06 | 1 komentar | Bagikan ke WhatsApp

Checkpoint Quantization Aware Training (QAT) Gemma 4 mengoptimalkan kebutuhan memori dan performa on-device untuk membantu eksekusi lokal di perangkat edge sehari-hari dan GPU konsumen
QAT mensimulasikan kuantisasi selama pelatihan untuk mengurangi penurunan kualitas saat kompresi, dan menghasilkan kualitas keseluruhan yang lebih tinggi dibanding baseline PTQ standar
Checkpoint yang dirilis menargetkan format Q4_0 dan format khusus mobile, dengan format mobile menurunkan jejak memori Gemma 4 E2B menjadi 1GB
Skema mobile mengurangi beban kerja dan penggunaan memori aktif pada chip mobile melalui aktivasi statis, kuantisasi per kanal, kuantisasi 2-bit selektif, serta optimasi embedding dan cache KV
Dukungan Hugging Face weights, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth memungkinkan eksekusi lokal, deployment on-device, dan fine-tuning

Latar belakang dan cakupan rilis

Dua bulan setelah peluncuran Gemma 4, Google merilis checkpoint QAT setelah sebelumnya menghadirkan Multi-Token Prediction(MTP) untuk akselerasi inferensi dan model 12B yang mengisi celah antara model MOE E4B dan 26B
Checkpoint baru ini merupakan upaya efisiensi agar Gemma 4 dapat dijalankan secara lokal pada perangkat edge sehari-hari dan GPU konsumen
QAT adalah metode yang mensimulasikan kuantisasi selama pelatihan untuk meminimalkan penurunan kualitas saat model dikompresi
Rilis kali ini menyediakan checkpoint QAT untuk format kuantisasi Q4_0 yang populer serta format kuantisasi baru yang dioptimalkan untuk use case mobile

Trade-off kompresi dan kualitas

Kuantisasi adalah teknologi kunci untuk menjalankan model di hardware konsumen, karena mengurangi jejak memori dan meningkatkan kecepatan decode
Quantization pasca-pelatihan standar (PTQ) sering menurunkan performa, tetapi QAT mengintegrasikan proses kuantisasi langsung ke dalam pelatihan
PTQ juga efektif dalam menjaga kualitas, tetapi hasil QAT memberikan kualitas keseluruhan yang lebih tinggi dibanding baseline PTQ standar
Google menerapkan resep QAT ke format Q4_0 untuk memaksimalkan performa semua model, dan secara terpisah merancang skema kuantisasi khusus mobile untuk model edge E2B dan E4B

Arsitektur optimasi mobile

Format kompresi standar sering sulit dijalankan secara efisien pada prosesor mobile, sehingga Gemma 4 menggunakan skema kuantisasi mobile kustom untuk hardware edge
Aktivasi statis menghitung lebih dulu pengaturan skala data selama pelatihan untuk mengurangi beban kerja chip mobile dan meningkatkan kecepatan respons
Kuantisasi per kanal menyusun data terkompresi agar sesuai dengan struktur akselerator mobile, sehingga memungkinkan komputasi native tanpa jalur lambat alternatif
Kuantisasi 2-bit selektif mengompresi bagian pembangkitan token secara agresif menjadi 2-bit sambil mempertahankan layer inferensi inti pada presisi yang lebih tinggi untuk menghemat ruang penyimpanan
Optimasi embedding dan cache KV memusatkan kompresi pada daftar kosakata model dan memori jangka pendek untuk secara signifikan mengurangi jejak memori aktif dan memungkinkan percakapan yang lebih panjang
Untuk use case yang tidak memerlukan encoder audio atau vision, hanya modalitas yang diperlukan yang dapat dideploy untuk lebih mengurangi jejak memori, dan model teks-only Gemma 4 E2B tanpa Per-Layer Embeddings membutuhkan memori kurang dari 1GB

Cara penggunaan dan dukungan alat

Google menyediakan bobot model Q4_0 dan mobile di Hugging Face
Format GGUF dapat langsung digunakan di llama.cpp, tensor terkompresi disediakan untuk vLLM, dan untuk workflow lain Google membagikan checkpoint non-kuantisasi yang dapat dikonversi dan dikuantisasi ke format dengan dukungan Q4_0
Metode deployment dapat dilihat di dokumentasi
Di desktop, model Gemma 4 QAT dapat diunduh, dikelola, dan dijalankan secara lokal melalui llama.cpp, Ollama, dan LM Studio
Untuk deployment on-device, runtime ringan Google LiteRT-LM dapat digunakan, dan di web model dapat dijalankan langsung dengan Transformers.js
Untuk serving model besar dapat digunakan SGLang dan vLLM, sementara untuk optimasi Apple Silicon tersedia MLX
Checkpoint MTP QAT mempertahankan peningkatan kecepatan dari MTP sambil tetap menguantisasi model, dan bobotnya dapat di-fine-tune langsung dengan Hugging Face Transformers serta Unsloth

1 komentar

GN⁺ 2026-06-06

Komentar Hacker News

Saya mencoba menjalankan Gemma 4 E2B secara lokal di Mac dengan uvx litert-lm run, dan saat pertama kali dijalankan model ini mengunduh 3.2GB ke ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm
Cukup mengesankan bahwa model sebesar ini juga bisa menangani input audio dan gambar; untuk gambar bisa dijalankan dengan --attachment image.jpg --prompt describe, dan untuk audio dengan --attachment audio.wav --prompt transcribe
Hasil SVG pelikan itu sendiri kurang bagus, tetapi tetap mengejutkan bahwa file 3.2GB bisa menghasilkan SVG yang valid: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...
- Saya agak bingung apakah ini benar-benar quantization-aware training (QAT)
  Model dari MLX Community mencantumkannya dalam nama, tetapi model-model ini tidak, dan tanggal unggahnya juga tampaknya tidak sepenuhnya cocok
- Mengejutkan juga bahwa ada versi 0.8GB khusus teks
  Sekarang percakapan real-time dasar yang mengenali video dan audio di dalam perangkat sendiri sudah memungkinkan
- Terpisah dari itu, uvx benar-benar sangat nyaman dipakai
  Saya berharap Nvidia juga mendukung ini sebagai warga kelas satu alih-alih membuat orang harus melewati prosedur Docker
Ada juga koleksi Unsloth [0], dan hasilnya juga dipublikasikan [1]
Dibandingkan model BF16 tanpa kuantisasi, akurasinya tampak hampir mendekati 100%, dan kuantisasi Unsloth terlihat lebih baik daripada QAT asli Google yang disebut di artikel
Secara pribadi saya juga memakai model 2B melalui Unsloth Studio dan API untuk pencarian web serta output JSON terstruktur, bahkan saat model tertanam di ponsel, dan untuk penggunaan ini sangat cocok
[0] https://huggingface.co/collections/unsloth/gemma-4-qat
[1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis
- Sepertinya Anda salah memahami grafik itu
  Yang terlihat di sana bukan BF16 biasa, melainkan BF16 QAT Q4_0
  Kurang lebih artinya Google mengkuantisasi model ke 4-bit, lalu menyimpan hasilnya dalam format BF16 demi kompatibilitas dengan packer level bawah dan kemudahan penggunaan
  Ini mirip seperti menyimpan angka 8-bit kecil di dalam integer 32-bit, jadi bukan berarti ia mendekati 100% dari BF16 tanpa kuantisasi
  Namun saya penasaran kenapa QAT Q4_0 4-bit yang dirilis Google tidak persis 100% dari BF16 QAT Q4_0. Konversi antara dua packing itu sepertinya mestinya hanya manipulasi bit tanpa kuantisasi tambahan, tetapi Unsloth mengatakan ada masalah penyelarasan grid
  Terlepas dari itu, saya tidak suka ketika Google, Qwen, dan pembuat model kecil lain hanya menampilkan benchmark BF16 saat merilis model baru. Padahal orang-orang sebenarnya menjalankan kuantisasi 4~8-bit, dan sangat sulit mengetahui seberapa besar kerugian di 4-bit dan 6-bit
- Saya bingung, jadi model Unsloth sekitar 600MB, sedangkan versi Google 7GB?
Bahkan hanya minggu ini saja, sangat mengesankan seberapa cepat ekosistem Gemma berkembang
Gemma 12B, prediksi multi-token, dan model kuantisasi resmi sudah dirilis, dan rasanya Google benar-benar serius mendorong alur rilis ini sehingga cukup menjanjikan
Ini hari Jumat tepat sebelum WWDC, dan menarik bahwa Apple dijadwalkan mengumumkan Siri yang “ditingkatkan” berbasis model Google
Mungkin ini kemitraan yang tertutup sekarang, tetapi bisa saja Google sedang merilis lebih dulu model yang akan didemokan Apple minggu depan
Tidak ada informasi pasti, ini hanya spekulasi
Saya mencoba menjalankan hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 dengan ollama di laptop AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB, RAM 14GB, dan hasilnya lebih cepat dari perkiraan
Merilis Gemma 4 12B (https://news.ycombinator.com/item?id=48385906), lalu beberapa hari kemudian merilis Q4_0 Gemma 4 12B resmi terasa agak aneh
Meski begitu, bagus juga bahwa artikel ini mencantumkan estimasi penggunaan VRAM Q4_0 Gemma 4 12B sebesar 6.7GB, dan ini memang sesuai dengan klaim Google bahwa modelnya muat dalam 16GB, walaupun pada akhirnya itu hanya berlaku untuk versi terkuantisasi
Terkait hal itu, Edge Gallery untuk macOS yang baru dirilis Google secara eksplisit menyatakan bahwa Gemma 4 12B tidak didukung pada mesin 16GB karena kehabisan RAM, tetapi melihat estimasi penggunaan VRAM di sini, varian Q4_0 jelas seharusnya bisa masuk, jadi Google perlu memperbaikinya
- Saya kurang paham kenapa adanya beberapa rilis dianggap aneh
  Menurut saya lebih baik merilis model dan variannya begitu siap daripada menahannya sampai semuanya siap sekaligus
  Q4_0 bukan sekadar hasil kuantisasi biasa dari Gemma 4 12B, tetapi checkpoint quantization-aware training
- Kalau saya memahaminya dengan benar, 4Q dan QAT 4Q itu berbeda
Google Pixel Intelligence mungkin bisa mengalahkan Apple Intelligence
Fakta bahwa model 12B bisa dijalankan di VRAM 8GB adalah perubahan besar
Mengejutkan melihat seberapa cepat model lokal kecil berkembang
Saya sudah mencoba Gemma 4 E2B Unsloth 4Q dan berjalan cukup baik: https://youtube.com/shorts/XLsAnz5aAAI
Model E4B tidak muat di TPU ponsel saya sehingga dipindahkan ke RAM, jadi saya senang jika versi QAT bisa memberi akurasi yang lebih baik
- Saya penasaran bagaimana Anda mendapatkan hasil yang berguna dengan itu
  Menurut kami, bahkan model E2B tanpa kuantisasi sama sekali tidak berguna untuk tugas klasifikasi nyata yang paling sederhana sekalipun
- Saya penasaran bagaimana Anda tahu apakah model itu berjalan di TPU atau dipindahkan ke RAM
  Saya juga ingin mengujinya di Pixel saya

Model Gemma 4 QAT: optimasi kompresi untuk efisiensi mobile dan laptop

Latar belakang dan cakupan rilis

Trade-off kompresi dan kualitas

Arsitektur optimasi mobile

Cara penggunaan dan dukungan alat

Bacaan terkait

1 komentar

Komentar Hacker News