- Gemma 4 yang dirilis Google DeepMind adalah keluarga LLM multimodal yang terdiri dari empat model: E2B, E4B, 31B, dan 26B A4B, dan semua variannya mendukung input gambar
- Semua model berbagi arsitektur yang menyusun selang-seling local attention (sliding window) dan global attention layer, dengan layer terakhir selalu ditetapkan sebagai global attention
- Pada global attention layer, tiga teknik efisiensi diterapkan sekaligus: GQA (grouped query attention), teknik K=V, dan p-RoPE, untuk menghemat memori dan komputasi
- Model kecil (E2B·E4B) menggunakan Per-Layer Embeddings (PLE) untuk menyimpan tabel embedding besar di flash memory sehingga penggunaan VRAM tetap minimal, dan juga dilengkapi encoder audio
- Gemma 4 mendukung pemakaian luas dari on-device hingga inferensi skala besar melalui vision encoder (berbasis ViT) yang mendukung rasio aspek dan resolusi variabel serta arsitektur MoE (26B A4B)
Komposisi keluarga Gemma 4
- Terdiri dari 4 model dan memakai dua jenis arsitektur: dense dan MoE
- Gemma 4 - E2B: menerapkan Per-Layer Embeddings, 2 miliar effective parameters
- Gemma 4 - E4B: menerapkan Per-Layer Embeddings, 4 miliar effective parameters
- Gemma 4 - 31B: model dense dengan 31 miliar parameter
- Gemma 4 - 26B A4B: model MoE dengan total 26 miliar parameter, tetapi hanya 4 miliar parameter yang aktif saat inferensi
- Semua model bersifat multimodal dan bisa memproses input gambar dengan berbagai ukuran dan resolusi
- Model kecil (E2B·E4B) juga mendukung input audio selain gambar dan teks
Arsitektur umum Gemma 4
Penyusunan selang-seling attention layer (Interleaving Layers)
- Seperti Gemma 3, Gemma 4 menyusun selang-seling local attention (sliding window) dan global attention
- Sliding window attention: hanya merujuk token dalam rentang tertentu → mengurangi beban komputasi
- Global attention: merujuk seluruh sequence → dapat memahami struktur konteks secara utuh
- Ukuran sliding window
- Model kecil (E2B·E4B): 512 token
- Model besar (26B A4B·31B): 1024 token
- Pada Gemma 3, ada kasus layer terakhir memakai local attention, tetapi pada Gemma 4 layer terakhir selalu dipatok sebagai global attention
- Rasio penyusunan
- E2B: pola 4:1, yaitu 4 local attention layer + 1 global attention layer
- Model lainnya: pola 5:1 (5 local layer + 1 global layer)
Efisiensi global attention
GQA (Grouped Query Attention)
- Pada global attention layer, 8 query head berbagi 1 KV head, sehingga kebutuhan penyimpanan KV cache berkurang besar
- Untuk mengompensasi penurunan performa akibat berkurangnya jumlah KV head, dimensi Key diperbesar 2x
Teknik K=V
- Pada global attention layer, Keys dan Values dibuat identik, sehingga kebutuhan memori KV cache makin berkurang
- Teknik ini meningkatkan efisiensi memori tanpa penurunan performa yang besar
p-RoPE
- RoPE (rotary positional encoding) diterapkan bukan pada seluruh dimensi, tetapi hanya pada sebagian dimensi (misalnya jika p=0.25, hanya diterapkan pada 25% pasangan teratas)
- Pasangan frekuensi rendah dimanfaatkan untuk mempertahankan informasi semantik alih-alih informasi posisi
- Sangat efektif untuk mengurangi distorsi jarak antartoken akibat konteks panjang pada global attention
- Ringkasan seluruh peningkatan yang diterapkan pada global attention layer:
- Layer terakhir selalu global attention
- 1 Key dibagi untuk setiap 8 query
- Dimensi Key diperbesar 2x
- Keys = Values
- p-RoPE dengan p=0.25 diterapkan
Vision encoder
- Berbasis Vision Transformer (ViT), yang mengubah gambar menjadi sequence patch untuk membuat embedding
- Setiap patch berukuran 16×16 piksel
- Model kecil (E2B·E4B) memakai vision encoder 150 juta parameter, sedangkan model lainnya memakai vision encoder 550 juta parameter
Dukungan rasio aspek variabel
- ViT konvensional memakai input persegi tetap → menimbulkan masalah karena positional encoding berubah mengikuti rasio aspek
- Gemma 4 memperkenalkan 2D RoPE: patch embedding dibagi menjadi dua bagian, lalu informasi posisi horizontal (w) dan vertikal (h) dienkodekan secara terpisah
- Gambar input di-resize secara adaptif agar sesuai dengan patch 16×16 piksel, dan bagian yang tidak pas sepenuhnya diisi dengan padding
- Patch berukuran variabel kemudian dipooling berdasarkan posisi spasial untuk diperkecil menjadi jumlah patch embedding tetap
Dukungan resolusi variabel (soft token budget)
- Diperkenalkan konsep soft token budget: membatasi jumlah maksimum patch embedding yang dikirim ke LLM
- Budget yang dapat dipilih pengguna: 70, 140, 280, 560, 1120 token
- Makin tinggi budget (misalnya 1120), makin tinggi resolusi yang dipertahankan; makin rendah budget (misalnya 70), gambar akan lebih banyak di-downscale
- Contoh: jika budget 280, maka jumlah patch maksimum = 9 × 280 = 2.520 buah (average pooling diterapkan dalam unit blok 3×3)
Proyeksi linear (Linear Projection)
- Embedding keluaran vision encoder berbeda dalam dimensi dan distribusi dari token embedding LLM, sehingga diproyeksikan lewat jaringan saraf kecil
- Setelah proyeksi, diterapkan RMSNorm agar sesuai dengan ekspektasi skala pada Transformer block berikutnya
- Layer proyeksi linear dilatih bersama Gemma 4 agar patch embedding dioptimalkan sesuai ruang embedding yang diharapkan LLM
Gemma 4 - 31B (Dense)
- Model arsitektur dense dengan 31 miliar parameter, dan merupakan struktur yang paling mendekati bentuk dasar di antara varian Gemma 4
- Secara struktural mirip dengan model 27B di Gemma 3, tetapi menerapkan peningkatan umum Gemma 4 seperti K=V dan p-RoPE
- Jumlah layer berkurang dari 62 menjadi 60 layer, tetapi dengan lebar per layer yang lebih besar
Gemma 4 - 26B A4B (Mixture of Experts)
- Total memiliki 26 miliar parameter, tetapi saat inferensi hanya memakai 4 miliar parameter (parameter aktif) sehingga dapat berjalan dengan kecepatan setara model 4B
- Struktur MoE (Mixture of Experts): alih-alih satu FFNN besar biasa, digunakan banyak FFNN kecil (Expert) dan hanya sebagian yang diaktifkan sesuai input
- Dari total 128 Expert, 8 Expert dipilih dan diaktifkan saat inferensi
- 1 Shared Expert selalu aktif: menangani pengetahuan umum dan ukurannya 3 kali lebih besar daripada Expert lain
- Router menghasilkan probabilitas pemilihan Expert untuk tiap token input, lalu melakukan routing; hasil dari Expert terpilih diberi bobot sesuai probabilitas tersebut
- Semua parameter tetap dimuat di memori, tetapi komputasi nyata hanya memakai 8 Expert + 1 Shared Expert → 119 sisanya dalam keadaan siaga
Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)
Per-Layer Embeddings (PLE)
- Untuk meminimalkan penggunaan VRAM pada perangkat kecil, ditambahkan lookup table embedding terpisah untuk tiap layer, bukan hanya embedding di dalam model
- Berdasarkan E2B: tabel PLE berukuran 262.144 token × 35 layer × 256 dimensi → disimpan di flash memory
- Saat inferensi dimulai, embedding per layer untuk token input hanya diambil satu kali → tidak perlu diambil ulang di setiap layer sesudahnya
- Di antara tiap decoder block, gating function menentukan bobot embedding, lalu embedding diproyeksikan ke ukuran embedding asli (E2B: 256→1536, E4B: 256→2560)
- Embedding hasil proyeksi dinormalisasi lalu dijumlahkan dengan keluaran decoder block sebelumnya → model dapat terus merujuk makna token
- Huruf "E" berarti effective parameters di luar PLE
Encoder audio
- Hanya dipasang pada model kecil (E2B·E4B) dan digunakan untuk automatic speech recognition serta terjemahan
- Tiga tahap pemrosesan audio:
- Ekstraksi fitur: audio mentah → mel-spectrogram (representasi 2D waktu × frekuensi)
- Pengelompokan chunk: fitur mel dikelompokkan per chunk untuk membentuk titik awal sequence token
- Downsampling: dua layer konvolusi 2D mempersingkat panjang sequence dan menghasilkan soft token
- Gemma 4 memakai Conformer sebagai audio encoder: struktur yang menambahkan modul konvolusi ke encoder Transformer standar
- Embedding keluaran Conformer juga, seperti vision encoder, diubah lewat proyeksi linear agar sesuai dengan ruang embedding Gemma 4
Belum ada komentar.