1 poin oleh GN⁺ 2025-06-27 | 1 komentar | Bagikan ke WhatsApp
  • Gemma 3n adalah model AI multimodal on-device terbaru untuk lingkungan mobile dan edge, yang dapat memproses gambar, audio, video, dan teks
  • Dengan struktur berfokus efisiensi dan arsitektur inovatif (Matformer, Per-Layer Embeddings, MobileNet-V5, dll.), performa setara model besar berbasis cloud yang ada saat ini dapat diwujudkan hanya dengan memori 2~3GB
  • Tersedia dalam dua ukuran model, E2B/E4B, serta mendukung ukuran kustom yang detail sesuai hardware melalui pendekatan Mix-n-Match
  • Dapat langsung diterapkan ke berbagai use case AI on-device seperti pengenalan suara dan terjemahan, analisis visi real-time, serta pemrosesan multibahasa dalam 140 bahasa
  • Terintegrasi luas dengan ekosistem open source AI utama seperti Hugging Face, Ollama, llama.cpp, dll. dan bisa langsung dimanfaatkan melalui berbagai tool, API, dan SDK

Gambaran umum dan latar belakang

  • Model Gemma pertama yang dirilis awal tahun lalu mencatat lebih dari 160 juta unduhan dan berkembang menjadi ekosistem bernama Gemmaverse
  • Ekosistem ini mencakup berbagai model khusus seperti keamanan dan medis, serta banyak use case inovatif yang dibuat melalui kontribusi komunitas
  • Berbekal kesuksesan tersebut, Google mengumumkan rilis resmi Gemma 3n yang dirancang dengan fokus mobile
  • Menyediakan integrasi luas dengan ekosistem dan tool yang ramah developer seperti Hugging Face Transformers, llama.cpp, Google AI Edge, dan Ollama
  • Memperkenalkan inovasi inti, benchmark, dan cara pengembangan Gemma 3n secara mendalam dari sudut pandang developer

What’s new in Gemma 3n?

  • Gemma 3n menandai lompatan baru untuk AI on-device
  • Menyediakan dukungan multimodal native untuk input teks, gambar, audio, dan video, serta output teks
  • Dengan efisiensi yang dimaksimalkan, model ini hadir dalam dua ukuran: E2B (5B parameter) dan E4B (8B parameter), serta dapat dijalankan bahkan pada memori rendah (2GB, 3GB)
  • Menerapkan arsitektur inovatif seperti MatFormer, Per Layer Embeddings, LAuReL, dan AltUp serta dilengkapi encoder audio dan vision baru
  • Mendukung 140 bahasa, pemahaman multimodal dalam 35 bahasa, kemampuan matematika, coding, dan penalaran yang ditingkatkan, serta menembus skor LMArena 1300 untuk E4B

MatFormer: satu model, berbagai ukuran

  • Arsitektur MatFormer (🪆Matryoshka Transformer) adalah struktur transformer baru yang dirancang untuk skalabilitas dan fleksibilitas
  • Memanfaatkan prinsip matryoshka Rusia, di mana model kecil dimasukkan secara independen di dalam model besar
  • Saat melatih E4B, submodel E2B juga dioptimalkan secara bersamaan, sehingga memungkinkan inferensi hingga 2x lebih cepat tanpa perlu mengunduh model hasil ekstraksi terpisah lebih dulu
  • Melalui pendekatan Mix-n-Match, dapat dibuat model menengah kustom yang sesuai dengan keterbatasan hardware (memanfaatkan feedforward network atau layer skip)
  • Di MatFormer Lab, Anda dapat memeriksa setelan optimal berbasis benchmark dan membuat model
  • Ke depannya juga direncanakan dukungan untuk elastic execution (peralihan ukuran model dinamis secara real-time)

Per-Layer Embeddings (PLE): memaksimalkan efisiensi memori on-device

  • Dengan Per-Layer Embeddings (embedding per lapisan), kualitas saat deployment on-device ditingkatkan sekaligus penggunaan memori diminimalkan
  • Dari keseluruhan parameter (5B/8B), hanya embedding yang dimuat dan diproses secara efisien di CPU, sementara core transformer (2B/4B) tetap berada di VRAM
  • Berkat ini, model dapat berjalan tanpa penurunan kualitas meski menggunakan memori yang jauh lebih kecil dibanding sebelumnya (hanya sekitar 2B parameter pada accelerator)

KV Cache Sharing: optimalisasi input konteks panjang

  • Gemma 3n menambahkan fitur KV Cache Sharing untuk memproses input sekuensial panjang seperti audio/video panjang dengan lebih cepat
  • Pada tahap prefill (pemrosesan input awal), cache KV dari layer menengah langsung dibagikan ke layer atas, sehingga performa meningkat hingga lebih dari 2x
  • Prompt dengan sekuens panjang dapat dikenali lebih cepat dibanding sebelumnya, sehingga meningkatkan kemampuan real-time pada aplikasi multimodal

Pengenalan audio: dukungan STT dan terjemahan

  • Dilengkapi encoder audio berbasis Universal Speech Model (USM), yang memanfaatkan token audio dalam unit 160ms sebagai input ke language model
  • Memungkinkan implementasi automatic speech recognition (ASR) dan automatic speech translation (AST) berkualitas tinggi secara on-device
  • Performa tinggi telah dikonfirmasi pada pasangan bahasa utama seperti Inggris↔Spanyol, Prancis, Italia, dan Portugis
  • Kualitas terjemahan dapat ditingkatkan dengan memanfaatkan teknik prompt Chain-of-Thought
  • Encoder audio awal (saat peluncuran) mendukung klip hingga 30 detik, dan nantinya akan diperluas agar mendukung pemrosesan streaming yang lebih panjang

MobileNet-V5: encoder vision terbaru

  • MobileNet-V5-300M yang terintegrasi di Gemma 3n adalah encoder vision berefisiensi tinggi yang memberikan performa kuat bahkan di perangkat edge
  • Mendukung berbagai resolusi input seperti 256x256, 512x512, dan 768x768 piksel, sehingga performa dan detail dapat disesuaikan dengan kebutuhan
  • Melalui pelatihan bersama berbasis dataset multimodal berskala besar, model ini mewujudkan cakupan luas untuk pemahaman gambar dan video serta unggul dalam menangani tugas visual yang spesifik
  • Mampu melakukan analisis real-time 60 frame per detik di Google Pixel
  • Dari sisi arsitektur, diterapkan banyak inovasi seperti blok berbasis MobileNet-V4 (universal inverted bottleneck, Mobile MQA), struktur piramida hybrid, serta adapter Multi-Scale Fusion VLM
  • Unggul jauh dibanding SoViT (baseline Gemma 3) dengan 13x lebih cepat, pengurangan parameter 46%, memori 4x lebih kecil, dan akurasi lebih tinggi
  • Detail tambahan seperti arsitektur, strategi perluasan data, dan teknik distilasi deep learning akan dipublikasikan lebih lanjut dalam laporan teknis

Penerapan praktis dan cara penggunaan

  • Coba langsung di AI Studio: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
  • Unduh/deploy model: dapat langsung digunakan melalui Hugging Face, Kaggle, Ollama, llama.cpp, dll.
  • Integrasi tool dan framework: sebagian besar didukung, termasuk Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, dan Unsloth
  • Deployment API dan cloud: dapat dideploy di berbagai lingkungan seperti Google GenAI API, Vertex AI, dan NVIDIA API

Skenario utama penggunaan on-device

  • Asisten AI real-time, penerjemah suara, chatbot multimodal, analisis vision real-time, dan IoT di smartphone/perangkat edge
  • Internalisasi layanan AI di lingkungan dengan sumber daya terbatas
  • Inovasi AI di lingkungan offline atau dengan keterbatasan jaringan

Sumber daya developer

Gemma 3n Impact Challenge

1 komentar

 
GN⁺ 2025-06-27
Opini Hacker News
  • Model ini menunjukkan kompatibilitas penuh dengan semua pekerjaan yang sebelumnya saya jalankan di gemma3. Saya langsung menghubungkannya ke skrip fine-tuning VLM saya dan berjalan tanpa masalah (berdasarkan kode hf transformer). Menjalankan model E4B dengan Lora di single GPU membutuhkan 18Gb VRAM pada batch size 1, sedangkan gemma-4B membutuhkan 21Gb. DeepMind benar-benar membuat ini dengan sangat baik; seri gemma3 adalah VLLM berbobot terbuka terbaik saat ini
    • Koreksi: model yang saya maksud saat ini adalah E2B
  • Saya mencoba prompt "membuat SVG pelikan yang mengendarai sepeda" pada Gemma 3n 7.5GB (Ollama) dan versi 15GB dari mlx-vlm, dan menarik melihat hasilnya berbeda pada masing-masing ukuran kuantisasi. Hasilnya saya unggah di sini: https://simonwillison.net/2025/Jun/26/gemma-3n/
    • Apakah ini benar-benar bisa disebut benchmark yang bermakna, atau cuma untuk lucu-lucuan? Sejujurnya saya kurang paham
  • Saya masih belum benar-benar mengerti bagaimana Gemma dan Gemini berbeda di lingkungan on-device. Keduanya sama-sama bisa dipakai tanpa koneksi jaringan. Contoh kalimat resmi: "Gemini Nano menghadirkan pengalaman AI generatif yang kaya bahkan tanpa koneksi jaringan" — kalimat ini akan tetap sepenuhnya benar jika Gemini diganti dengan Gemma
    • Bedanya ada di lisensi. Bobot Gemini Nano tidak bisa dipakai secara langsung (terutama untuk penggunaan komersial), dan hanya bisa diakses melalui Android MLKit atau runtime yang disetujui Google. Sementara Gemma bisa digunakan secara komersial di runtime atau framework apa pun yang Anda inginkan
    • Jika melihat blog pratinjau Gemma 3n, Gemma 3n dan versi Gemini Nano yang baru berbagi arsitektur yang sama. Menurut saya, huruf n di sini berarti Nano. Nano adalah model proprietary yang dibundel ke Android, sedangkan Gemma adalah model terbuka yang bisa diterapkan bebas di mana saja. Sumber terkait ada di blog dan video resmi Google
    • Gemma bersifat open source dan menggunakan lisensi Apache 2.0. Jika ingin memasukkannya ke aplikasi, Anda harus memaketkannya sendiri. Sementara Gemini Nano adalah API Android yang sama sekali tidak bisa Anda kendalikan
    • Saya menduga perbedaan kedua model ini ada pada data pelatihan. Versi Gemini mungkin dikelola jauh lebih ketat, dan jika mencoba mengeluarkan ulang sesuatu yang ada di data latihannya, bisa muncul 'recitation error'
  • Secara pribadi saya kurang suka bahwa berkat OpenAI, penamaan yang kacau seperti ini tampaknya menjadi standar di industri
    • Kalau begitu, saya penasaran nama apa yang akan Anda pilih
  • Saya sudah membuat versi GGUF-nya sendiri, jadi siapa pun bisa mencobanya jika perlu! Saya menjalankannya seperti ini: ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Saya juga sedang membuat demo Colab untuk inference + fine-tuning. Gemma 3N mendukung audio, teks, dan visi, jadi benar-benar mengesankan. Detailnya ada di https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune
    • Saya menguji model E4B di Ollama, tetapi interpretasi gambarnya benar-benar salah berfungsi. Output-nya hanya bergantung pada teks, selalu salah secara konsisten, dan karena Gemma 3 4B resmi bekerja dengan baik, saya menyimpulkan ini masalah di Ollama. Setelah saya telusuri, saat ini dukungannya memang hanya teks[1], dan saya berharap hal ini dijelaskan dengan lebih jelas. Saya terlalu malas membangun llama.cpp sendiri, jadi kemungkinan akan menunggu sampai GGUF didukung. [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
    • Saya tadi sedang mengetik untuk mencoba versi Unsloth, lalu melihat Anda sudah membuat dan mengunggahnya. Keren sekali!
    • Terima kasih! Saya penasaran, untuk menjalankan model seperti ini, spesifikasi PC seperti apa yang dibutuhkan?
    • Saya penasaran, apa arti jinja di sini?
  • Sejujurnya saya ragu model kecil seperti ini akan membantu penggunaan nyata. Saya sudah mencoba berbagai hal, tetapi model yang lebih kecil dari 27B sulit dipakai lebih dari sekadar mainan, dan paling banter hanya sesekali memberi jawaban bagus. Saya memecahkan masalah filter spam dengan gemma3:27b-it-qat, dan benchmark saya juga menunjukkan bahwa barulah di level itu model mulai layak dipakai
    • Ada kegunaan nyata bahkan jika akurasi rendah. Saya tidak tahu produk seperti apa yang akan muncul di masa depan, tetapi bahkan hari ini sudah ada contoh seperti ini: small language model dipakai pada keyboard iPhone untuk rekomendasi kata berikutnya (pengguna tinggal memilih kata yang disarankan). Selain itu, model kecil juga digunakan untuk mempercepat inferensi model besar seperti pada speculative decoding. Ke depannya akan ada penggunaan yang lebih cerdas lagi
    • Model kecil seperti ini cukup berguna jika dilihat sebagai infrastruktur dasar. Akan sangat bagus jika suatu hari nanti sebagian besar ponsel memiliki LLM bawaan, semacam menjadi infrastruktur default seperti itu
    • Penggunaan terbaik yang saya temukan untuk model kecil (<5bn params) adalah sebagai alat referensi offline. Saat coding di pesawat, alih-alih Google saya memakai qwen di MacBook Air untuk menanyakan sintaks, dokumentasi, dan pertanyaan dasar lainnya
    • Model kecil 4b ke bawah sangat cocok untuk fine-tuning tugas spesifik, dan bisa memberi hasil lebih baik daripada model komersial dengan biaya sangat murah. Ini juga bagus untuk autocomplete kode. Model 7b~8b cukup oke untuk tugas coding yang cepat dan sederhana seperti refactor kode (misalnya: "tambahkan prefiks ST_ ke semua nama fungsi yang memiliki argumen tipe SomeType"). Mulai dari model 12b, model seperti Mistral Nemo atau Gemma 3 12b bahkan bisa menghasilkan kalimat yang konsisten
  • Kevin Kwok merangkum reverse engineering struktur model ini dengan sangat baik, jadi layak dilihat: https://github.com/antimatter15/reverse-engineering-gemma-3n
  • Seharusnya ada data berbentuk tabel di suatu situs Google yang merangkum setiap nama produk, deskripsi, dan fitur
  • Sumbu Y pada grafiknya benar-benar digambar dengan lucu
  • Adakah yang tahu berapa biaya penggunaan versi deployment gemma 3n dalam praktiknya? Dokumentasinya mengatakan gemma 3n bisa dipakai lewat gemini api, tetapi harganya hanya ditampilkan sebagai "unavailable"