12 poin oleh GN⁺ 2025-04-21 | 1 komentar | Bagikan ke WhatsApp
  • Gemma 3 yang diumumkan bulan lalu adalah model AI terbuka dengan performa mutakhir, dan dapat dijalankan bahkan pada satu GPU berperforma tinggi seperti NVIDIA H100
  • Dirilis versi ringan yang menerapkan teknik QAT (Quantization-Aware Training) sehingga kini bisa dijalankan di GPU konsumen
  • Berkat kuantisasi int4, penggunaan memori berkurang drastis dengan penurunan performa yang minimal
  • Model QAT dapat berjalan pada GPU umum seperti RTX 3090 dan RTX 4060, serta bisa langsung digunakan di Hugging Face, Ollama, LM Studio, dan lainnya
  • Beragam model PTQ versi komunitas juga disediakan, sehingga pilihan menjadi lebih fleksibel

Pengenalan Gemma 3 dan gambaran performa

  • Gemma 3, model terbuka terbaru yang diumumkan Google, adalah model bahasa besar dengan performa unggul
  • Dengan presisi BF16 (floating point 16-bit), model ini dapat dijalankan di GPU NVIDIA H100 dan mencatat skor Chatbot Arena Elo yang sangat baik
  • Alasan penggunaan BF16 adalah untuk memastikan perbandingan performa antar-model tetap adil, sehingga performa asli model dapat dibandingkan tanpa berbagai metode optimasi tambahan

Kuantisasi berbasis QAT untuk meningkatkan aksesibilitas

  • Model besar sebelumnya memerlukan lingkungan cloud berspesifikasi tinggi, tetapi teknik QAT diterapkan agar bisa dijalankan juga di perangkat keras konsumen
  • Kuantisasi (Quantization) mengurangi presisi nilai di dalam model untuk menurunkan penggunaan memori dan mempercepat eksekusi
  • Contoh: saat menggunakan format int4 alih-alih BF16, terjadi efek kompresi lebih dari 4x

Menjaga kualitas dengan QAT

  • Alih-alih kuantisasi pascapemrosesan sederhana, digunakan pendekatan QAT (Quantization-Aware Training) yang mencerminkan kuantisasi selama pelatihan
  • Selama proses pelatihan, probabilitas prediksi dari checkpoint yang tidak dikuantisasi digunakan sebagai nilai target selama sekitar 5.000 step
  • Dengan cara ini, pada kuantisasi Q4_0 berhasil dicapai pengurangan laju penurunan Perplexity sebesar 54%

Penurunan penggunaan VRAM yang drastis

  • Efek penghematan VRAM akibat kuantisasi int4 sangat besar, dengan penurunan untuk tiap model sebagai berikut:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • Angka ini hanya mencakup VRAM yang dibutuhkan untuk memuat bobot model, sedangkan KV cache yang diperlukan saat eksekusi memerlukan VRAM tambahan

Dapat dijalankan di berbagai perangkat

  • Gemma 3 27B (int4): dapat dijalankan secara lokal di RTX 3090 (24GB VRAM)
  • Gemma 3 12B (int4): juga berjalan tanpa masalah di RTX 4060 Laptop (8GB VRAM)
  • Gemma 3 4B, 1B: dapat dijalankan pada smartphone dan perangkat berspesifikasi rendah

Integrasi dan penggunaan yang mudah

  • Model QAT bisa langsung digunakan di berbagai platform dan alat:

    • Ollama: jalankan dengan satu baris perintah
    • LM Studio: unduh dan jalankan di lingkungan GUI
    • MLX: mendukung inferensi efisien tinggi di Apple Silicon
    • Gemma.cpp: eksekusi berperforma tinggi di lingkungan CPU
    • llama.cpp: integrasi mudah dalam format GGUF

Model komunitas di Gemmaverse

  • Selain model QAT resmi, tersedia juga beragam model PTQ komunitas
  • Kontributor utama: Bartowski, Unsloth, GGML
  • Berbagai model ini dapat dipilih sesuai keseimbangan kecepatan, ukuran, dan kualitas

Bisa mulai sekarang juga

  • Sebagai langkah penting untuk demokratisasi AI, versi QAT dari Gemma 3 dapat dijalankan secara lokal oleh siapa saja
  • Cara menjalankan:

1 komentar

 
GN⁺ 2025-04-21
Komentar Hacker News
  • model gemma-3-27b-it-qat-4bit menjadi model pilihan baru bersama Mistral Small 3.1 24B

    • digunakan di M2 64GB melalui Ollama dan MLX, dengan penggunaan memori rendah sehingga masih ada cukup ruang untuk menjalankan aplikasi lain
    • memperoleh hasil yang baik saat menulis plugin untuk alat LLM
  • untuk pertanyaan "cek suasana" pribadi, model 4bit QAT 27B memberikan jawaban yang akurat

    • merasa kagum dengan kepadatan informasi yang termuat dalam bobot 13GB
    • model Gemma 3 27B dari DeepMind adalah model open source yang paling mengesankan
  • grafik pertama membandingkan "Elo Score" pada presisi BF16, dan grafik kedua membandingkan penggunaan VRAM

    • disayangkan tidak ada grafik perbandingan kualitas antara BF16 dan QAT
  • menggunakan gemma3:27b-it-qat alih-alih qwen2.5 untuk pekerjaan sehari-hari di Mac memori 32G

    • sangat berguna untuk pengembangan Python, Haskell, dan Common Lisp
    • memuaskan bisa menjalankan model open source secara lokal
  • dijalankan pada CPU AMD 3950x 16-core, dan sangat mengesankan untuk terjemahan serta deskripsi gambar

    • saat menerjemahkan, perintah disesuaikan untuk menghindari analisis bahasa input
  • setelah mengunduh QAT gemma3:27b terbaru, performa meningkat 1,47x

  • LLM lokal perlu diperlakukan sebagai warga kelas satu oleh perusahaan

    • grafik pertama bisa menimbulkan salah paham tentang jumlah H100 yang diperlukan untuk menjalankan DeepSeek r1 dalam FP16
  • Microsoft dan Apple mempromosikan AI PC dan Apple Intelligence, tetapi model yang benar-benar bisa digunakan di GPU konsumen pada praktiknya hanya memungkinkan di GPU kelas atas

  • Gemma 3 jauh lebih unggul daripada Llama 4

    • Meta bisa kehilangan posisinya di pasar LLM
    • ukuran model Llama 4 terlalu besar sehingga membatasi pengguna
    • Gemma 3 tersedia luas di semua ukuran perangkat keras
  • tersedia di Ollama