Google merilis Gemma 3n - Hadirnya AI multimodal on-device baru
(developers.googleblog.com)- Gemma 3n adalah model AI multimodal on-device terbaru untuk lingkungan mobile dan edge, yang dapat memproses gambar, audio, video, dan teks
- Dengan struktur berfokus efisiensi dan arsitektur inovatif (Matformer, Per-Layer Embeddings, MobileNet-V5, dll.), performa setara model besar berbasis cloud yang ada saat ini dapat diwujudkan hanya dengan memori 2~3GB
- Tersedia dalam dua ukuran model, E2B/E4B, serta mendukung ukuran kustom yang detail sesuai hardware melalui pendekatan Mix-n-Match
- Dapat langsung diterapkan ke berbagai use case AI on-device seperti pengenalan suara dan terjemahan, analisis visi real-time, serta pemrosesan multibahasa dalam 140 bahasa
- Terintegrasi luas dengan ekosistem open source AI utama seperti Hugging Face, Ollama, llama.cpp, dll. dan bisa langsung dimanfaatkan melalui berbagai tool, API, dan SDK
Gambaran umum dan latar belakang
- Model Gemma pertama yang dirilis awal tahun lalu mencatat lebih dari 160 juta unduhan dan berkembang menjadi ekosistem bernama Gemmaverse
- Ekosistem ini mencakup berbagai model khusus seperti keamanan dan medis, serta banyak use case inovatif yang dibuat melalui kontribusi komunitas
- Berbekal kesuksesan tersebut, Google mengumumkan rilis resmi Gemma 3n yang dirancang dengan fokus mobile
- Menyediakan integrasi luas dengan ekosistem dan tool yang ramah developer seperti Hugging Face Transformers, llama.cpp, Google AI Edge, dan Ollama
- Memperkenalkan inovasi inti, benchmark, dan cara pengembangan Gemma 3n secara mendalam dari sudut pandang developer
What’s new in Gemma 3n?
- Gemma 3n menandai lompatan baru untuk AI on-device
- Menyediakan dukungan multimodal native untuk input teks, gambar, audio, dan video, serta output teks
- Dengan efisiensi yang dimaksimalkan, model ini hadir dalam dua ukuran: E2B (5B parameter) dan E4B (8B parameter), serta dapat dijalankan bahkan pada memori rendah (2GB, 3GB)
- Menerapkan arsitektur inovatif seperti MatFormer, Per Layer Embeddings, LAuReL, dan AltUp serta dilengkapi encoder audio dan vision baru
- Mendukung 140 bahasa, pemahaman multimodal dalam 35 bahasa, kemampuan matematika, coding, dan penalaran yang ditingkatkan, serta menembus skor LMArena 1300 untuk E4B
MatFormer: satu model, berbagai ukuran
- Arsitektur MatFormer (🪆Matryoshka Transformer) adalah struktur transformer baru yang dirancang untuk skalabilitas dan fleksibilitas
- Memanfaatkan prinsip matryoshka Rusia, di mana model kecil dimasukkan secara independen di dalam model besar
- Saat melatih E4B, submodel E2B juga dioptimalkan secara bersamaan, sehingga memungkinkan inferensi hingga 2x lebih cepat tanpa perlu mengunduh model hasil ekstraksi terpisah lebih dulu
- Melalui pendekatan Mix-n-Match, dapat dibuat model menengah kustom yang sesuai dengan keterbatasan hardware (memanfaatkan feedforward network atau layer skip)
- Di MatFormer Lab, Anda dapat memeriksa setelan optimal berbasis benchmark dan membuat model
- Ke depannya juga direncanakan dukungan untuk elastic execution (peralihan ukuran model dinamis secara real-time)
Per-Layer Embeddings (PLE): memaksimalkan efisiensi memori on-device
- Dengan Per-Layer Embeddings (embedding per lapisan), kualitas saat deployment on-device ditingkatkan sekaligus penggunaan memori diminimalkan
- Dari keseluruhan parameter (5B/8B), hanya embedding yang dimuat dan diproses secara efisien di CPU, sementara core transformer (2B/4B) tetap berada di VRAM
- Berkat ini, model dapat berjalan tanpa penurunan kualitas meski menggunakan memori yang jauh lebih kecil dibanding sebelumnya (hanya sekitar 2B parameter pada accelerator)
KV Cache Sharing: optimalisasi input konteks panjang
- Gemma 3n menambahkan fitur KV Cache Sharing untuk memproses input sekuensial panjang seperti audio/video panjang dengan lebih cepat
- Pada tahap prefill (pemrosesan input awal), cache KV dari layer menengah langsung dibagikan ke layer atas, sehingga performa meningkat hingga lebih dari 2x
- Prompt dengan sekuens panjang dapat dikenali lebih cepat dibanding sebelumnya, sehingga meningkatkan kemampuan real-time pada aplikasi multimodal
Pengenalan audio: dukungan STT dan terjemahan
- Dilengkapi encoder audio berbasis Universal Speech Model (USM), yang memanfaatkan token audio dalam unit 160ms sebagai input ke language model
- Memungkinkan implementasi automatic speech recognition (ASR) dan automatic speech translation (AST) berkualitas tinggi secara on-device
- Performa tinggi telah dikonfirmasi pada pasangan bahasa utama seperti Inggris↔Spanyol, Prancis, Italia, dan Portugis
- Kualitas terjemahan dapat ditingkatkan dengan memanfaatkan teknik prompt Chain-of-Thought
- Encoder audio awal (saat peluncuran) mendukung klip hingga 30 detik, dan nantinya akan diperluas agar mendukung pemrosesan streaming yang lebih panjang
MobileNet-V5: encoder vision terbaru
- MobileNet-V5-300M yang terintegrasi di Gemma 3n adalah encoder vision berefisiensi tinggi yang memberikan performa kuat bahkan di perangkat edge
- Mendukung berbagai resolusi input seperti 256x256, 512x512, dan 768x768 piksel, sehingga performa dan detail dapat disesuaikan dengan kebutuhan
- Melalui pelatihan bersama berbasis dataset multimodal berskala besar, model ini mewujudkan cakupan luas untuk pemahaman gambar dan video serta unggul dalam menangani tugas visual yang spesifik
- Mampu melakukan analisis real-time 60 frame per detik di Google Pixel
- Dari sisi arsitektur, diterapkan banyak inovasi seperti blok berbasis MobileNet-V4 (universal inverted bottleneck, Mobile MQA), struktur piramida hybrid, serta adapter Multi-Scale Fusion VLM
- Unggul jauh dibanding SoViT (baseline Gemma 3) dengan 13x lebih cepat, pengurangan parameter 46%, memori 4x lebih kecil, dan akurasi lebih tinggi
- Detail tambahan seperti arsitektur, strategi perluasan data, dan teknik distilasi deep learning akan dipublikasikan lebih lanjut dalam laporan teknis
Penerapan praktis dan cara penggunaan
- Coba langsung di AI Studio: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- Unduh/deploy model: dapat langsung digunakan melalui Hugging Face, Kaggle, Ollama, llama.cpp, dll.
- Integrasi tool dan framework: sebagian besar didukung, termasuk Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, dan Unsloth
- Deployment API dan cloud: dapat dideploy di berbagai lingkungan seperti Google GenAI API, Vertex AI, dan NVIDIA API
Skenario utama penggunaan on-device
- Asisten AI real-time, penerjemah suara, chatbot multimodal, analisis vision real-time, dan IoT di smartphone/perangkat edge
- Internalisasi layanan AI di lingkungan dengan sumber daya terbatas
- Inovasi AI di lingkungan offline atau dengan keterbatasan jaringan
Sumber daya developer
- Dokumentasi resmi
- Unduh model (HF)
- MatFormer Lab
- Coba di Google AI Studio
- Integrasi dengan ekosistem open source, Ollama, MLX, llama.cpp, dll.
Gemma 3n Impact Challenge
- Kompetisi pengembangan produk dengan dampak sosial nyata yang memanfaatkan kemampuan on-device/offline/multimodal diselenggarakan
- Hadiah total $150,000, perlu mengirimkan video dan demo: https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1 komentar
Opini Hacker News
./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Saya juga sedang membuat demo Colab untuk inference + fine-tuning. Gemma 3N mendukung audio, teks, dan visi, jadi benar-benar mengesankan. Detailnya ada di https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tunejinjadi sini?