Panduan Visual Gemma 4

(newsletter.maartengrootendorst.com)

17 poin oleh GN⁺ 2026-04-04 | Belum ada komentar. | Bagikan ke WhatsApp

Gemma 4 yang dirilis Google DeepMind adalah keluarga LLM multimodal yang terdiri dari empat model: E2B, E4B, 31B, dan 26B A4B, dan semua variannya mendukung input gambar
Semua model berbagi arsitektur yang menyusun selang-seling local attention (sliding window) dan global attention layer, dengan layer terakhir selalu ditetapkan sebagai global attention
Pada global attention layer, tiga teknik efisiensi diterapkan sekaligus: GQA (grouped query attention), teknik K=V, dan p-RoPE, untuk menghemat memori dan komputasi
Model kecil (E2B·E4B) menggunakan Per-Layer Embeddings (PLE) untuk menyimpan tabel embedding besar di flash memory sehingga penggunaan VRAM tetap minimal, dan juga dilengkapi encoder audio
Gemma 4 mendukung pemakaian luas dari on-device hingga inferensi skala besar melalui vision encoder (berbasis ViT) yang mendukung rasio aspek dan resolusi variabel serta arsitektur MoE (26B A4B)

Komposisi keluarga Gemma 4

Terdiri dari 4 model dan memakai dua jenis arsitektur: dense dan MoE
- Gemma 4 - E2B: menerapkan Per-Layer Embeddings, 2 miliar effective parameters
- Gemma 4 - E4B: menerapkan Per-Layer Embeddings, 4 miliar effective parameters
- Gemma 4 - 31B: model dense dengan 31 miliar parameter
- Gemma 4 - 26B A4B: model MoE dengan total 26 miliar parameter, tetapi hanya 4 miliar parameter yang aktif saat inferensi
Semua model bersifat multimodal dan bisa memproses input gambar dengan berbagai ukuran dan resolusi
Model kecil (E2B·E4B) juga mendukung input audio selain gambar dan teks

Arsitektur umum Gemma 4

Penyusunan selang-seling attention layer (Interleaving Layers)

Seperti Gemma 3, Gemma 4 menyusun selang-seling local attention (sliding window) dan global attention
- Sliding window attention: hanya merujuk token dalam rentang tertentu → mengurangi beban komputasi
- Global attention: merujuk seluruh sequence → dapat memahami struktur konteks secara utuh
Ukuran sliding window
- Model kecil (E2B·E4B): 512 token
- Model besar (26B A4B·31B): 1024 token
Pada Gemma 3, ada kasus layer terakhir memakai local attention, tetapi pada Gemma 4 layer terakhir selalu dipatok sebagai global attention
Rasio penyusunan
- E2B: pola 4:1, yaitu 4 local attention layer + 1 global attention layer
- Model lainnya: pola 5:1 (5 local layer + 1 global layer)

Efisiensi global attention

GQA (Grouped Query Attention)

Pada global attention layer, 8 query head berbagi 1 KV head, sehingga kebutuhan penyimpanan KV cache berkurang besar
Untuk mengompensasi penurunan performa akibat berkurangnya jumlah KV head, dimensi Key diperbesar 2x

Teknik K=V

Pada global attention layer, Keys dan Values dibuat identik, sehingga kebutuhan memori KV cache makin berkurang
Teknik ini meningkatkan efisiensi memori tanpa penurunan performa yang besar

p-RoPE

RoPE (rotary positional encoding) diterapkan bukan pada seluruh dimensi, tetapi hanya pada sebagian dimensi (misalnya jika p=0.25, hanya diterapkan pada 25% pasangan teratas)
Pasangan frekuensi rendah dimanfaatkan untuk mempertahankan informasi semantik alih-alih informasi posisi
Sangat efektif untuk mengurangi distorsi jarak antartoken akibat konteks panjang pada global attention
Ringkasan seluruh peningkatan yang diterapkan pada global attention layer:
- Layer terakhir selalu global attention
- 1 Key dibagi untuk setiap 8 query
- Dimensi Key diperbesar 2x
- Keys = Values
- p-RoPE dengan p=0.25 diterapkan

Vision encoder

Berbasis Vision Transformer (ViT), yang mengubah gambar menjadi sequence patch untuk membuat embedding
- Setiap patch berukuran 16×16 piksel
Model kecil (E2B·E4B) memakai vision encoder 150 juta parameter, sedangkan model lainnya memakai vision encoder 550 juta parameter

Dukungan rasio aspek variabel

ViT konvensional memakai input persegi tetap → menimbulkan masalah karena positional encoding berubah mengikuti rasio aspek
Gemma 4 memperkenalkan 2D RoPE: patch embedding dibagi menjadi dua bagian, lalu informasi posisi horizontal (w) dan vertikal (h) dienkodekan secara terpisah
Gambar input di-resize secara adaptif agar sesuai dengan patch 16×16 piksel, dan bagian yang tidak pas sepenuhnya diisi dengan padding
Patch berukuran variabel kemudian dipooling berdasarkan posisi spasial untuk diperkecil menjadi jumlah patch embedding tetap

Dukungan resolusi variabel (soft token budget)

Diperkenalkan konsep soft token budget: membatasi jumlah maksimum patch embedding yang dikirim ke LLM
- Budget yang dapat dipilih pengguna: 70, 140, 280, 560, 1120 token
Makin tinggi budget (misalnya 1120), makin tinggi resolusi yang dipertahankan; makin rendah budget (misalnya 70), gambar akan lebih banyak di-downscale
Contoh: jika budget 280, maka jumlah patch maksimum = 9 × 280 = 2.520 buah (average pooling diterapkan dalam unit blok 3×3)

Proyeksi linear (Linear Projection)

Embedding keluaran vision encoder berbeda dalam dimensi dan distribusi dari token embedding LLM, sehingga diproyeksikan lewat jaringan saraf kecil
Setelah proyeksi, diterapkan RMSNorm agar sesuai dengan ekspektasi skala pada Transformer block berikutnya
Layer proyeksi linear dilatih bersama Gemma 4 agar patch embedding dioptimalkan sesuai ruang embedding yang diharapkan LLM

Gemma 4 - 31B (Dense)

Model arsitektur dense dengan 31 miliar parameter, dan merupakan struktur yang paling mendekati bentuk dasar di antara varian Gemma 4
Secara struktural mirip dengan model 27B di Gemma 3, tetapi menerapkan peningkatan umum Gemma 4 seperti K=V dan p-RoPE
Jumlah layer berkurang dari 62 menjadi 60 layer, tetapi dengan lebar per layer yang lebih besar

Gemma 4 - 26B A4B (Mixture of Experts)

Total memiliki 26 miliar parameter, tetapi saat inferensi hanya memakai 4 miliar parameter (parameter aktif) sehingga dapat berjalan dengan kecepatan setara model 4B
Struktur MoE (Mixture of Experts): alih-alih satu FFNN besar biasa, digunakan banyak FFNN kecil (Expert) dan hanya sebagian yang diaktifkan sesuai input
- Dari total 128 Expert, 8 Expert dipilih dan diaktifkan saat inferensi
- 1 Shared Expert selalu aktif: menangani pengetahuan umum dan ukurannya 3 kali lebih besar daripada Expert lain
Router menghasilkan probabilitas pemilihan Expert untuk tiap token input, lalu melakukan routing; hasil dari Expert terpilih diberi bobot sesuai probabilitas tersebut
Semua parameter tetap dimuat di memori, tetapi komputasi nyata hanya memakai 8 Expert + 1 Shared Expert → 119 sisanya dalam keadaan siaga

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

Untuk meminimalkan penggunaan VRAM pada perangkat kecil, ditambahkan lookup table embedding terpisah untuk tiap layer, bukan hanya embedding di dalam model
Berdasarkan E2B: tabel PLE berukuran 262.144 token × 35 layer × 256 dimensi → disimpan di flash memory
Saat inferensi dimulai, embedding per layer untuk token input hanya diambil satu kali → tidak perlu diambil ulang di setiap layer sesudahnya
Di antara tiap decoder block, gating function menentukan bobot embedding, lalu embedding diproyeksikan ke ukuran embedding asli (E2B: 256→1536, E4B: 256→2560)
Embedding hasil proyeksi dinormalisasi lalu dijumlahkan dengan keluaran decoder block sebelumnya → model dapat terus merujuk makna token
Huruf "E" berarti effective parameters di luar PLE

Encoder audio

Hanya dipasang pada model kecil (E2B·E4B) dan digunakan untuk automatic speech recognition serta terjemahan
Tiga tahap pemrosesan audio:
1. Ekstraksi fitur: audio mentah → mel-spectrogram (representasi 2D waktu × frekuensi)
2. Pengelompokan chunk: fitur mel dikelompokkan per chunk untuk membentuk titik awal sequence token
3. Downsampling: dua layer konvolusi 2D mempersingkat panjang sequence dan menghasilkan soft token
Gemma 4 memakai Conformer sebagai audio encoder: struktur yang menambahkan modul konvolusi ke encoder Transformer standar
Embedding keluaran Conformer juga, seperti vision encoder, diubah lewat proyeksi linear agar sesuai dengan ruang embedding Gemma 4

Panduan Visual Gemma 4

Komposisi keluarga Gemma 4

Arsitektur umum Gemma 4

Penyusunan selang-seling attention layer (Interleaving Layers)

Efisiensi global attention

GQA (Grouped Query Attention)

Teknik K=V

p-RoPE

Vision encoder

Dukungan rasio aspek variabel

Dukungan resolusi variabel (soft token budget)

Proyeksi linear (Linear Projection)

Gemma 4 - 31B (Dense)

Gemma 4 - 26B A4B (Mixture of Experts)

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

Encoder audio

Bacaan terkait

Belum ada komentar.