- Gemma 3 adalah keluarga model open-weight ringan baru dari Google DeepMind, dengan skala parameter yang beragam dari 1B hingga 27B
- Peningkatan utama:
- Penambahan kemampuan multimodal → mencakup kemampuan pemahaman visual
- Pemrosesan konteks panjang → mampu menangani hingga 128K token
- Penguatan dukungan multibahasa → peningkatan performa di berbagai bahasa
- Optimasi penggunaan memori → mengurangi penggunaan memori KV-cache dengan menyesuaikan rasio layer attention lokal dan global (5:1)
- Dilatih dengan metode Knowledge Distillation → performa meningkat dibanding versi sebelumnya
# Arsitektur model
- Tetap menggunakan arsitektur Transformer khusus decoder
- Mengadopsi Grouped-Query Attention (GQA) → menerapkan mekanisme attention yang lebih efisien
- Menetapkan rasio attention lokal/global 5:1 → mempertahankan ukuran jendela lokal di 1024 token
- Memperluas frekuensi dasar RoPE (Rotary Position Embedding) dari 10K menjadi 1M → memperkuat dukungan konteks panjang
- Encoder visual: menggunakan encoder berbasis SigLIP (400M parameter)
# Modalitas visi
- Encoder visual: beroperasi pada resolusi 896 x 896
- Menerapkan teknik Pan & Scan (P&S) → dapat menangani gambar dengan rasio tak beraturan
- Encoder visual dibagikan ke model 4B, 12B, dan 27B → tetap dibekukan selama pelatihan
# Pra-pelatihan (Pre-training)
- Pelatihan dilakukan dengan metode Knowledge Distillation
- Jumlah token yang digunakan dalam pelatihan:
- 1B → 2T token
- 4B → 4T token
- 12B → 12T token
- 27B → 14T token
- Peningkatan performa multibahasa → mencakup data monolingual dan paralel
- Proses penyaringan → menghapus informasi pribadi dan data sensitif
# Pelatihan sadar kuantisasi (Quantization Aware Training)
- Kuantisasi dilakukan setelah pelatihan → tersedia dalam berbagai format seperti int4 dan fp8
- Efek penghematan memori:
- Berdasarkan model 27B:
- Asli: 54GB → setelah kuantisasi: minimal 14.1GB
# Instruction tuning
- Menerapkan pembelajaran penguatan dan knowledge distillation secara bersamaan
- Memperkuat helpfulness, matematika, coding, penalaran, dan kemampuan multibahasa
- Teknologi utama yang digunakan dalam pembelajaran penguatan:
- BOND, WARM, WARP → menerapkan teknik pembelajaran penguatan berbasis reward
- Penyaringan data → menghapus data yang tidak perlu dan informasi sensitif
# Evaluasi performa
Hasil evaluasi LMSYS Chatbot Arena
- Model Gemma 3 27B IT mencatat skor Elo: 1338 → performa masuk 10 besar
- Mencatat performa yang mendekati GPT-4.5 dan Grok-3-Preview
- Naik 118 poin dibanding versi sebelumnya, Gemma 2 27B
Performa benchmark standar
- MMLU-Pro: 67.5 (naik sekitar 10 poin dibanding Gemma 2)
- MATH: 89.0 (naik sekitar 34 poin dibanding Gemma 2)
- LiveCodeBench: 29.7 (naik sekitar 9 poin dibanding Gemma 2)
# Analisis performa berdasarkan perubahan struktur
- Rasio attention lokal:global → 5:1 adalah yang paling optimal untuk performa dan penggunaan memori
- Ukuran sliding window → 1024 token menjaga efisiensi memori tanpa penurunan performa
- Pengurangan memori KV cache → turun 15% dibanding attention khusus global
# Penguatan dukungan konteks panjang
- Saat pelatihan dimulai dari 32K token → kemudian ditingkatkan ke 128K token
- Penyesuaian frekuensi RoPE → memperluas konteks tanpa penurunan performa
# Evaluasi performa encoder visual
- Performa meningkat saat resolusi input ditingkatkan:
- Dari 256 → 896 resolusi performa naik hingga 20%
- Peningkatan performa saat teknik Pan & Scan diterapkan:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# Memori dan perlindungan privasi
- Tingkat memorisasi (Memorization Rate) menurun:
- Gemma 3 menunjukkan penurunan penggunaan memori dibanding Gemma 2
- Risiko kebocoran informasi pribadi lebih rendah
# Tanggung jawab, keselamatan, dan keamanan
- Mencegah konten berbahaya sesuai kebijakan keselamatan Google:
- Mencegah pelecehan anak, ujaran kebencian, kebocoran informasi pribadi, dan lain-lain
- Menerapkan pembelajaran penguatan yang ditingkatkan dan RLHF → meminimalkan pembuatan konten berbahaya
# Kesimpulan
- Gemma 3 menunjukkan peningkatan besar dibanding model Gemma 2 yang ada sebelumnya dalam performa multimodal, multibahasa, dan konteks panjang
- Kemampuan pemahaman visual, matematika, dan coding diperkuat
- Penggunaan memori yang dioptimalkan meningkatkan baik performa maupun efisiensi
Belum ada komentar.