17 poin oleh GN⁺ 16 hari lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Gemma 4 yang dirilis Google DeepMind adalah keluarga LLM multimodal yang terdiri dari empat model: E2B, E4B, 31B, dan 26B A4B, dan semua variannya mendukung input gambar
  • Semua model berbagi arsitektur yang menyusun selang-seling local attention (sliding window) dan global attention layer, dengan layer terakhir selalu ditetapkan sebagai global attention
  • Pada global attention layer, tiga teknik efisiensi diterapkan sekaligus: GQA (grouped query attention), teknik K=V, dan p-RoPE, untuk menghemat memori dan komputasi
  • Model kecil (E2B·E4B) menggunakan Per-Layer Embeddings (PLE) untuk menyimpan tabel embedding besar di flash memory sehingga penggunaan VRAM tetap minimal, dan juga dilengkapi encoder audio
  • Gemma 4 mendukung pemakaian luas dari on-device hingga inferensi skala besar melalui vision encoder (berbasis ViT) yang mendukung rasio aspek dan resolusi variabel serta arsitektur MoE (26B A4B)

Komposisi keluarga Gemma 4

  • Terdiri dari 4 model dan memakai dua jenis arsitektur: dense dan MoE
    • Gemma 4 - E2B: menerapkan Per-Layer Embeddings, 2 miliar effective parameters
    • Gemma 4 - E4B: menerapkan Per-Layer Embeddings, 4 miliar effective parameters
    • Gemma 4 - 31B: model dense dengan 31 miliar parameter
    • Gemma 4 - 26B A4B: model MoE dengan total 26 miliar parameter, tetapi hanya 4 miliar parameter yang aktif saat inferensi
  • Semua model bersifat multimodal dan bisa memproses input gambar dengan berbagai ukuran dan resolusi
  • Model kecil (E2B·E4B) juga mendukung input audio selain gambar dan teks

Arsitektur umum Gemma 4

Penyusunan selang-seling attention layer (Interleaving Layers)

  • Seperti Gemma 3, Gemma 4 menyusun selang-seling local attention (sliding window) dan global attention
    • Sliding window attention: hanya merujuk token dalam rentang tertentu → mengurangi beban komputasi
    • Global attention: merujuk seluruh sequence → dapat memahami struktur konteks secara utuh
  • Ukuran sliding window
    • Model kecil (E2B·E4B): 512 token
    • Model besar (26B A4B·31B): 1024 token
  • Pada Gemma 3, ada kasus layer terakhir memakai local attention, tetapi pada Gemma 4 layer terakhir selalu dipatok sebagai global attention
  • Rasio penyusunan
    • E2B: pola 4:1, yaitu 4 local attention layer + 1 global attention layer
    • Model lainnya: pola 5:1 (5 local layer + 1 global layer)

Efisiensi global attention

GQA (Grouped Query Attention)

  • Pada global attention layer, 8 query head berbagi 1 KV head, sehingga kebutuhan penyimpanan KV cache berkurang besar
  • Untuk mengompensasi penurunan performa akibat berkurangnya jumlah KV head, dimensi Key diperbesar 2x

Teknik K=V

  • Pada global attention layer, Keys dan Values dibuat identik, sehingga kebutuhan memori KV cache makin berkurang
  • Teknik ini meningkatkan efisiensi memori tanpa penurunan performa yang besar

p-RoPE

  • RoPE (rotary positional encoding) diterapkan bukan pada seluruh dimensi, tetapi hanya pada sebagian dimensi (misalnya jika p=0.25, hanya diterapkan pada 25% pasangan teratas)
  • Pasangan frekuensi rendah dimanfaatkan untuk mempertahankan informasi semantik alih-alih informasi posisi
  • Sangat efektif untuk mengurangi distorsi jarak antartoken akibat konteks panjang pada global attention
  • Ringkasan seluruh peningkatan yang diterapkan pada global attention layer:
    • Layer terakhir selalu global attention
    • 1 Key dibagi untuk setiap 8 query
    • Dimensi Key diperbesar 2x
    • Keys = Values
    • p-RoPE dengan p=0.25 diterapkan

Vision encoder

  • Berbasis Vision Transformer (ViT), yang mengubah gambar menjadi sequence patch untuk membuat embedding
    • Setiap patch berukuran 16×16 piksel
  • Model kecil (E2B·E4B) memakai vision encoder 150 juta parameter, sedangkan model lainnya memakai vision encoder 550 juta parameter

Dukungan rasio aspek variabel

  • ViT konvensional memakai input persegi tetap → menimbulkan masalah karena positional encoding berubah mengikuti rasio aspek
  • Gemma 4 memperkenalkan 2D RoPE: patch embedding dibagi menjadi dua bagian, lalu informasi posisi horizontal (w) dan vertikal (h) dienkodekan secara terpisah
  • Gambar input di-resize secara adaptif agar sesuai dengan patch 16×16 piksel, dan bagian yang tidak pas sepenuhnya diisi dengan padding
  • Patch berukuran variabel kemudian dipooling berdasarkan posisi spasial untuk diperkecil menjadi jumlah patch embedding tetap

Dukungan resolusi variabel (soft token budget)

  • Diperkenalkan konsep soft token budget: membatasi jumlah maksimum patch embedding yang dikirim ke LLM
    • Budget yang dapat dipilih pengguna: 70, 140, 280, 560, 1120 token
  • Makin tinggi budget (misalnya 1120), makin tinggi resolusi yang dipertahankan; makin rendah budget (misalnya 70), gambar akan lebih banyak di-downscale
  • Contoh: jika budget 280, maka jumlah patch maksimum = 9 × 280 = 2.520 buah (average pooling diterapkan dalam unit blok 3×3)

Proyeksi linear (Linear Projection)

  • Embedding keluaran vision encoder berbeda dalam dimensi dan distribusi dari token embedding LLM, sehingga diproyeksikan lewat jaringan saraf kecil
  • Setelah proyeksi, diterapkan RMSNorm agar sesuai dengan ekspektasi skala pada Transformer block berikutnya
  • Layer proyeksi linear dilatih bersama Gemma 4 agar patch embedding dioptimalkan sesuai ruang embedding yang diharapkan LLM

Gemma 4 - 31B (Dense)

  • Model arsitektur dense dengan 31 miliar parameter, dan merupakan struktur yang paling mendekati bentuk dasar di antara varian Gemma 4
  • Secara struktural mirip dengan model 27B di Gemma 3, tetapi menerapkan peningkatan umum Gemma 4 seperti K=V dan p-RoPE
  • Jumlah layer berkurang dari 62 menjadi 60 layer, tetapi dengan lebar per layer yang lebih besar

Gemma 4 - 26B A4B (Mixture of Experts)

  • Total memiliki 26 miliar parameter, tetapi saat inferensi hanya memakai 4 miliar parameter (parameter aktif) sehingga dapat berjalan dengan kecepatan setara model 4B
  • Struktur MoE (Mixture of Experts): alih-alih satu FFNN besar biasa, digunakan banyak FFNN kecil (Expert) dan hanya sebagian yang diaktifkan sesuai input
    • Dari total 128 Expert, 8 Expert dipilih dan diaktifkan saat inferensi
    • 1 Shared Expert selalu aktif: menangani pengetahuan umum dan ukurannya 3 kali lebih besar daripada Expert lain
  • Router menghasilkan probabilitas pemilihan Expert untuk tiap token input, lalu melakukan routing; hasil dari Expert terpilih diberi bobot sesuai probabilitas tersebut
  • Semua parameter tetap dimuat di memori, tetapi komputasi nyata hanya memakai 8 Expert + 1 Shared Expert → 119 sisanya dalam keadaan siaga

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

  • Untuk meminimalkan penggunaan VRAM pada perangkat kecil, ditambahkan lookup table embedding terpisah untuk tiap layer, bukan hanya embedding di dalam model
  • Berdasarkan E2B: tabel PLE berukuran 262.144 token × 35 layer × 256 dimensi → disimpan di flash memory
  • Saat inferensi dimulai, embedding per layer untuk token input hanya diambil satu kali → tidak perlu diambil ulang di setiap layer sesudahnya
  • Di antara tiap decoder block, gating function menentukan bobot embedding, lalu embedding diproyeksikan ke ukuran embedding asli (E2B: 256→1536, E4B: 256→2560)
  • Embedding hasil proyeksi dinormalisasi lalu dijumlahkan dengan keluaran decoder block sebelumnya → model dapat terus merujuk makna token
  • Huruf "E" berarti effective parameters di luar PLE

Encoder audio

  • Hanya dipasang pada model kecil (E2B·E4B) dan digunakan untuk automatic speech recognition serta terjemahan
  • Tiga tahap pemrosesan audio:
    1. Ekstraksi fitur: audio mentah → mel-spectrogram (representasi 2D waktu × frekuensi)
    2. Pengelompokan chunk: fitur mel dikelompokkan per chunk untuk membentuk titik awal sequence token
    3. Downsampling: dua layer konvolusi 2D mempersingkat panjang sequence dan menghasilkan soft token
  • Gemma 4 memakai Conformer sebagai audio encoder: struktur yang menambahkan modul konvolusi ke encoder Transformer standar
  • Embedding keluaran Conformer juga, seperti vision encoder, diubah lewat proyeksi linear agar sesuai dengan ruang embedding Gemma 4

Belum ada komentar.

Belum ada komentar.