1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Checkpoint Quantization Aware Training (QAT) Gemma 4 mengoptimalkan kebutuhan memori dan performa on-device untuk membantu eksekusi lokal di perangkat edge sehari-hari dan GPU konsumen
  • QAT mensimulasikan kuantisasi selama pelatihan untuk mengurangi penurunan kualitas saat kompresi, dan menghasilkan kualitas keseluruhan yang lebih tinggi dibanding baseline PTQ standar
  • Checkpoint yang dirilis menargetkan format Q4_0 dan format khusus mobile, dengan format mobile menurunkan jejak memori Gemma 4 E2B menjadi 1GB
  • Skema mobile mengurangi beban kerja dan penggunaan memori aktif pada chip mobile melalui aktivasi statis, kuantisasi per kanal, kuantisasi 2-bit selektif, serta optimasi embedding dan cache KV
  • Dukungan Hugging Face weights, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth memungkinkan eksekusi lokal, deployment on-device, dan fine-tuning

Latar belakang dan cakupan rilis

  • Dua bulan setelah peluncuran Gemma 4, Google merilis checkpoint QAT setelah sebelumnya menghadirkan Multi-Token Prediction(MTP) untuk akselerasi inferensi dan model 12B yang mengisi celah antara model MOE E4B dan 26B
  • Checkpoint baru ini merupakan upaya efisiensi agar Gemma 4 dapat dijalankan secara lokal pada perangkat edge sehari-hari dan GPU konsumen
  • QAT adalah metode yang mensimulasikan kuantisasi selama pelatihan untuk meminimalkan penurunan kualitas saat model dikompresi
  • Rilis kali ini menyediakan checkpoint QAT untuk format kuantisasi Q4_0 yang populer serta format kuantisasi baru yang dioptimalkan untuk use case mobile

Trade-off kompresi dan kualitas

  • Kuantisasi adalah teknologi kunci untuk menjalankan model di hardware konsumen, karena mengurangi jejak memori dan meningkatkan kecepatan decode
  • Quantization pasca-pelatihan standar (PTQ) sering menurunkan performa, tetapi QAT mengintegrasikan proses kuantisasi langsung ke dalam pelatihan
  • PTQ juga efektif dalam menjaga kualitas, tetapi hasil QAT memberikan kualitas keseluruhan yang lebih tinggi dibanding baseline PTQ standar
  • Google menerapkan resep QAT ke format Q4_0 untuk memaksimalkan performa semua model, dan secara terpisah merancang skema kuantisasi khusus mobile untuk model edge E2B dan E4B

Arsitektur optimasi mobile

  • Format kompresi standar sering sulit dijalankan secara efisien pada prosesor mobile, sehingga Gemma 4 menggunakan skema kuantisasi mobile kustom untuk hardware edge
  • Aktivasi statis menghitung lebih dulu pengaturan skala data selama pelatihan untuk mengurangi beban kerja chip mobile dan meningkatkan kecepatan respons
  • Kuantisasi per kanal menyusun data terkompresi agar sesuai dengan struktur akselerator mobile, sehingga memungkinkan komputasi native tanpa jalur lambat alternatif
  • Kuantisasi 2-bit selektif mengompresi bagian pembangkitan token secara agresif menjadi 2-bit sambil mempertahankan layer inferensi inti pada presisi yang lebih tinggi untuk menghemat ruang penyimpanan
  • Optimasi embedding dan cache KV memusatkan kompresi pada daftar kosakata model dan memori jangka pendek untuk secara signifikan mengurangi jejak memori aktif dan memungkinkan percakapan yang lebih panjang
  • Untuk use case yang tidak memerlukan encoder audio atau vision, hanya modalitas yang diperlukan yang dapat dideploy untuk lebih mengurangi jejak memori, dan model teks-only Gemma 4 E2B tanpa Per-Layer Embeddings membutuhkan memori kurang dari 1GB

Cara penggunaan dan dukungan alat

  • Google menyediakan bobot model Q4_0 dan mobile di Hugging Face
  • Format GGUF dapat langsung digunakan di llama.cpp, tensor terkompresi disediakan untuk vLLM, dan untuk workflow lain Google membagikan checkpoint non-kuantisasi yang dapat dikonversi dan dikuantisasi ke format dengan dukungan Q4_0
  • Metode deployment dapat dilihat di dokumentasi
  • Di desktop, model Gemma 4 QAT dapat diunduh, dikelola, dan dijalankan secara lokal melalui llama.cpp, Ollama, dan LM Studio
  • Untuk deployment on-device, runtime ringan Google LiteRT-LM dapat digunakan, dan di web model dapat dijalankan langsung dengan Transformers.js
  • Untuk serving model besar dapat digunakan SGLang dan vLLM, sementara untuk optimasi Apple Silicon tersedia MLX
  • Checkpoint MTP QAT mempertahankan peningkatan kecepatan dari MTP sambil tetap menguantisasi model, dan bobotnya dapat di-fine-tune langsung dengan Hugging Face Transformers serta Unsloth

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Saya mencoba menjalankan Gemma 4 E2B secara lokal di Mac dengan uvx litert-lm run, dan saat pertama kali dijalankan model ini mengunduh 3.2GB ke ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm
    Cukup mengesankan bahwa model sebesar ini juga bisa menangani input audio dan gambar; untuk gambar bisa dijalankan dengan --attachment image.jpg --prompt describe, dan untuk audio dengan --attachment audio.wav --prompt transcribe
    Hasil SVG pelikan itu sendiri kurang bagus, tetapi tetap mengejutkan bahwa file 3.2GB bisa menghasilkan SVG yang valid: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...

    • Saya agak bingung apakah ini benar-benar quantization-aware training (QAT)
      Model dari MLX Community mencantumkannya dalam nama, tetapi model-model ini tidak, dan tanggal unggahnya juga tampaknya tidak sepenuhnya cocok
    • Mengejutkan juga bahwa ada versi 0.8GB khusus teks
      Sekarang percakapan real-time dasar yang mengenali video dan audio di dalam perangkat sendiri sudah memungkinkan
    • Terpisah dari itu, uvx benar-benar sangat nyaman dipakai
      Saya berharap Nvidia juga mendukung ini sebagai warga kelas satu alih-alih membuat orang harus melewati prosedur Docker
  • Ada juga koleksi Unsloth [0], dan hasilnya juga dipublikasikan [1]
    Dibandingkan model BF16 tanpa kuantisasi, akurasinya tampak hampir mendekati 100%, dan kuantisasi Unsloth terlihat lebih baik daripada QAT asli Google yang disebut di artikel
    Secara pribadi saya juga memakai model 2B melalui Unsloth Studio dan API untuk pencarian web serta output JSON terstruktur, bahkan saat model tertanam di ponsel, dan untuk penggunaan ini sangat cocok
    [0] https://huggingface.co/collections/unsloth/gemma-4-qat
    [1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis

    • Sepertinya Anda salah memahami grafik itu
      Yang terlihat di sana bukan BF16 biasa, melainkan BF16 QAT Q4_0
      Kurang lebih artinya Google mengkuantisasi model ke 4-bit, lalu menyimpan hasilnya dalam format BF16 demi kompatibilitas dengan packer level bawah dan kemudahan penggunaan
      Ini mirip seperti menyimpan angka 8-bit kecil di dalam integer 32-bit, jadi bukan berarti ia mendekati 100% dari BF16 tanpa kuantisasi
      Namun saya penasaran kenapa QAT Q4_0 4-bit yang dirilis Google tidak persis 100% dari BF16 QAT Q4_0. Konversi antara dua packing itu sepertinya mestinya hanya manipulasi bit tanpa kuantisasi tambahan, tetapi Unsloth mengatakan ada masalah penyelarasan grid
      Terlepas dari itu, saya tidak suka ketika Google, Qwen, dan pembuat model kecil lain hanya menampilkan benchmark BF16 saat merilis model baru. Padahal orang-orang sebenarnya menjalankan kuantisasi 4~8-bit, dan sangat sulit mengetahui seberapa besar kerugian di 4-bit dan 6-bit
    • Saya bingung, jadi model Unsloth sekitar 600MB, sedangkan versi Google 7GB?
  • Bahkan hanya minggu ini saja, sangat mengesankan seberapa cepat ekosistem Gemma berkembang
    Gemma 12B, prediksi multi-token, dan model kuantisasi resmi sudah dirilis, dan rasanya Google benar-benar serius mendorong alur rilis ini sehingga cukup menjanjikan

  • Ini hari Jumat tepat sebelum WWDC, dan menarik bahwa Apple dijadwalkan mengumumkan Siri yang “ditingkatkan” berbasis model Google
    Mungkin ini kemitraan yang tertutup sekarang, tetapi bisa saja Google sedang merilis lebih dulu model yang akan didemokan Apple minggu depan
    Tidak ada informasi pasti, ini hanya spekulasi

  • Saya mencoba menjalankan hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 dengan ollama di laptop AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB, RAM 14GB, dan hasilnya lebih cepat dari perkiraan

  • Merilis Gemma 4 12B (https://news.ycombinator.com/item?id=48385906), lalu beberapa hari kemudian merilis Q4_0 Gemma 4 12B resmi terasa agak aneh
    Meski begitu, bagus juga bahwa artikel ini mencantumkan estimasi penggunaan VRAM Q4_0 Gemma 4 12B sebesar 6.7GB, dan ini memang sesuai dengan klaim Google bahwa modelnya muat dalam 16GB, walaupun pada akhirnya itu hanya berlaku untuk versi terkuantisasi
    Terkait hal itu, Edge Gallery untuk macOS yang baru dirilis Google secara eksplisit menyatakan bahwa Gemma 4 12B tidak didukung pada mesin 16GB karena kehabisan RAM, tetapi melihat estimasi penggunaan VRAM di sini, varian Q4_0 jelas seharusnya bisa masuk, jadi Google perlu memperbaikinya

    • Saya kurang paham kenapa adanya beberapa rilis dianggap aneh
      Menurut saya lebih baik merilis model dan variannya begitu siap daripada menahannya sampai semuanya siap sekaligus
      Q4_0 bukan sekadar hasil kuantisasi biasa dari Gemma 4 12B, tetapi checkpoint quantization-aware training
    • Kalau saya memahaminya dengan benar, 4Q dan QAT 4Q itu berbeda
  • Google Pixel Intelligence mungkin bisa mengalahkan Apple Intelligence

  • Fakta bahwa model 12B bisa dijalankan di VRAM 8GB adalah perubahan besar
    Mengejutkan melihat seberapa cepat model lokal kecil berkembang

  • Saya sudah mencoba Gemma 4 E2B Unsloth 4Q dan berjalan cukup baik: https://youtube.com/shorts/XLsAnz5aAAI
    Model E4B tidak muat di TPU ponsel saya sehingga dipindahkan ke RAM, jadi saya senang jika versi QAT bisa memberi akurasi yang lebih baik

    • Saya penasaran bagaimana Anda mendapatkan hasil yang berguna dengan itu
      Menurut kami, bahkan model E2B tanpa kuantisasi sama sekali tidak berguna untuk tugas klasifikasi nyata yang paling sederhana sekalipun
    • Saya penasaran bagaimana Anda tahu apakah model itu berjalan di TPU atau dipindahkan ke RAM
      Saya juga ingin mengujinya di Pixel saya