Laporan teknis Gemma 3 dari Google DeepMind [pdf]

(storage.googleapis.com)

2 poin oleh GN⁺ 2025-03-13 | Belum ada komentar. | Bagikan ke WhatsApp

Gemma 3 adalah keluarga model open-weight ringan baru dari Google DeepMind, dengan skala parameter yang beragam dari 1B hingga 27B
Peningkatan utama:
- Penambahan kemampuan multimodal → mencakup kemampuan pemahaman visual
- Pemrosesan konteks panjang → mampu menangani hingga 128K token
- Penguatan dukungan multibahasa → peningkatan performa di berbagai bahasa
- Optimasi penggunaan memori → mengurangi penggunaan memori KV-cache dengan menyesuaikan rasio layer attention lokal dan global (5:1)
Dilatih dengan metode Knowledge Distillation → performa meningkat dibanding versi sebelumnya

Tetap menggunakan arsitektur Transformer khusus decoder
Mengadopsi Grouped-Query Attention (GQA) → menerapkan mekanisme attention yang lebih efisien
Menetapkan rasio attention lokal/global 5:1 → mempertahankan ukuran jendela lokal di 1024 token
Memperluas frekuensi dasar RoPE (Rotary Position Embedding) dari 10K menjadi 1M → memperkuat dukungan konteks panjang
Encoder visual: menggunakan encoder berbasis SigLIP (400M parameter)

Encoder visual: beroperasi pada resolusi 896 x 896
Menerapkan teknik Pan & Scan (P&S) → dapat menangani gambar dengan rasio tak beraturan
Encoder visual dibagikan ke model 4B, 12B, dan 27B → tetap dibekukan selama pelatihan

Pelatihan dilakukan dengan metode Knowledge Distillation
Jumlah token yang digunakan dalam pelatihan:
- 1B → 2T token
- 4B → 4T token
- 12B → 12T token
- 27B → 14T token
Peningkatan performa multibahasa → mencakup data monolingual dan paralel
Proses penyaringan → menghapus informasi pribadi dan data sensitif

Kuantisasi dilakukan setelah pelatihan → tersedia dalam berbagai format seperti int4 dan fp8
Efek penghematan memori:
- Berdasarkan model 27B:
  - Asli: 54GB → setelah kuantisasi: minimal 14.1GB

Menerapkan pembelajaran penguatan dan knowledge distillation secara bersamaan
Memperkuat helpfulness, matematika, coding, penalaran, dan kemampuan multibahasa
Teknologi utama yang digunakan dalam pembelajaran penguatan:
- BOND, WARM, WARP → menerapkan teknik pembelajaran penguatan berbasis reward
Penyaringan data → menghapus data yang tidak perlu dan informasi sensitif

Rasio attention lokal:global → 5:1 adalah yang paling optimal untuk performa dan penggunaan memori
Ukuran sliding window → 1024 token menjaga efisiensi memori tanpa penurunan performa
Pengurangan memori KV cache → turun 15% dibanding attention khusus global

Saat pelatihan dimulai dari 32K token → kemudian ditingkatkan ke 128K token
Penyesuaian frekuensi RoPE → memperluas konteks tanpa penurunan performa

Performa meningkat saat resolusi input ditingkatkan:
- Dari 256 → 896 resolusi performa naik hingga 20%
Peningkatan performa saat teknik Pan & Scan diterapkan:
- DocVQA → +4.8%
- InfoVQA → +17.0%

Tingkat memorisasi (Memorization Rate) menurun:
- Gemma 3 menunjukkan penurunan penggunaan memori dibanding Gemma 2
- Risiko kebocoran informasi pribadi lebih rendah

Mencegah konten berbahaya sesuai kebijakan keselamatan Google:
- Mencegah pelecehan anak, ujaran kebencian, kebocoran informasi pribadi, dan lain-lain
Menerapkan pembelajaran penguatan yang ditingkatkan dan RLHF → meminimalkan pembuatan konten berbahaya

Gemma 3 menunjukkan peningkatan besar dibanding model Gemma 2 yang ada sebelumnya dalam performa multimodal, multibahasa, dan konteks panjang
Kemampuan pemahaman visual, matematika, dan coding diperkuat
Penggunaan memori yang dioptimalkan meningkatkan baik performa maupun efisiensi

Bacaan terkait