2 poin oleh GN⁺ 2025-03-13 | Belum ada komentar. | Bagikan ke WhatsApp
  • Gemma 3 adalah keluarga model open-weight ringan baru dari Google DeepMind, dengan skala parameter yang beragam dari 1B hingga 27B
  • Peningkatan utama:
    • Penambahan kemampuan multimodal → mencakup kemampuan pemahaman visual
    • Pemrosesan konteks panjang → mampu menangani hingga 128K token
    • Penguatan dukungan multibahasa → peningkatan performa di berbagai bahasa
    • Optimasi penggunaan memori → mengurangi penggunaan memori KV-cache dengan menyesuaikan rasio layer attention lokal dan global (5:1)
  • Dilatih dengan metode Knowledge Distillation → performa meningkat dibanding versi sebelumnya

# Arsitektur model

  • Tetap menggunakan arsitektur Transformer khusus decoder
  • Mengadopsi Grouped-Query Attention (GQA) → menerapkan mekanisme attention yang lebih efisien
  • Menetapkan rasio attention lokal/global 5:1 → mempertahankan ukuran jendela lokal di 1024 token
  • Memperluas frekuensi dasar RoPE (Rotary Position Embedding) dari 10K menjadi 1M → memperkuat dukungan konteks panjang
  • Encoder visual: menggunakan encoder berbasis SigLIP (400M parameter)

# Modalitas visi

  • Encoder visual: beroperasi pada resolusi 896 x 896
  • Menerapkan teknik Pan & Scan (P&S) → dapat menangani gambar dengan rasio tak beraturan
  • Encoder visual dibagikan ke model 4B, 12B, dan 27B → tetap dibekukan selama pelatihan

# Pra-pelatihan (Pre-training)

  • Pelatihan dilakukan dengan metode Knowledge Distillation
  • Jumlah token yang digunakan dalam pelatihan:
    • 1B → 2T token
    • 4B → 4T token
    • 12B → 12T token
    • 27B → 14T token
  • Peningkatan performa multibahasa → mencakup data monolingual dan paralel
  • Proses penyaringan → menghapus informasi pribadi dan data sensitif

# Pelatihan sadar kuantisasi (Quantization Aware Training)

  • Kuantisasi dilakukan setelah pelatihan → tersedia dalam berbagai format seperti int4 dan fp8
  • Efek penghematan memori:
    • Berdasarkan model 27B:
      • Asli: 54GB → setelah kuantisasi: minimal 14.1GB

# Instruction tuning

  • Menerapkan pembelajaran penguatan dan knowledge distillation secara bersamaan
  • Memperkuat helpfulness, matematika, coding, penalaran, dan kemampuan multibahasa
  • Teknologi utama yang digunakan dalam pembelajaran penguatan:
    • BOND, WARM, WARP → menerapkan teknik pembelajaran penguatan berbasis reward
  • Penyaringan data → menghapus data yang tidak perlu dan informasi sensitif

# Evaluasi performa

Hasil evaluasi LMSYS Chatbot Arena

  • Model Gemma 3 27B IT mencatat skor Elo: 1338 → performa masuk 10 besar
  • Mencatat performa yang mendekati GPT-4.5 dan Grok-3-Preview
  • Naik 118 poin dibanding versi sebelumnya, Gemma 2 27B

Performa benchmark standar

  • MMLU-Pro: 67.5 (naik sekitar 10 poin dibanding Gemma 2)
  • MATH: 89.0 (naik sekitar 34 poin dibanding Gemma 2)
  • LiveCodeBench: 29.7 (naik sekitar 9 poin dibanding Gemma 2)

# Analisis performa berdasarkan perubahan struktur

  • Rasio attention lokal:global → 5:1 adalah yang paling optimal untuk performa dan penggunaan memori
  • Ukuran sliding window → 1024 token menjaga efisiensi memori tanpa penurunan performa
  • Pengurangan memori KV cache → turun 15% dibanding attention khusus global

# Penguatan dukungan konteks panjang

  • Saat pelatihan dimulai dari 32K token → kemudian ditingkatkan ke 128K token
  • Penyesuaian frekuensi RoPE → memperluas konteks tanpa penurunan performa

# Evaluasi performa encoder visual

  • Performa meningkat saat resolusi input ditingkatkan:
    • Dari 256 → 896 resolusi performa naik hingga 20%
  • Peningkatan performa saat teknik Pan & Scan diterapkan:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# Memori dan perlindungan privasi

  • Tingkat memorisasi (Memorization Rate) menurun:
    • Gemma 3 menunjukkan penurunan penggunaan memori dibanding Gemma 2
    • Risiko kebocoran informasi pribadi lebih rendah

# Tanggung jawab, keselamatan, dan keamanan

  • Mencegah konten berbahaya sesuai kebijakan keselamatan Google:
    • Mencegah pelecehan anak, ujaran kebencian, kebocoran informasi pribadi, dan lain-lain
  • Menerapkan pembelajaran penguatan yang ditingkatkan dan RLHF → meminimalkan pembuatan konten berbahaya

# Kesimpulan

  • Gemma 3 menunjukkan peningkatan besar dibanding model Gemma 2 yang ada sebelumnya dalam performa multimodal, multibahasa, dan konteks panjang
  • Kemampuan pemahaman visual, matematika, dan coding diperkuat
  • Penggunaan memori yang dioptimalkan meningkatkan baik performa maupun efisiensi

Belum ada komentar.

Belum ada komentar.