Google merilis pratinjau Gemma 3n - AI mobile-first yang kuat dan efisien
(developers.googleblog.com)- Google merilis pratinjau Gemma 3n, model AI yang berfokus pada lingkungan mobile
- Gemma 3n berfokus pada perlindungan privasi dan eksekusi offline, serta mendukung pemrosesan multimodal seperti teks, audio, gambar, dan video
- Melalui teknologi baru Per-Layer Embeddings, model besar kini dapat dijalankan dengan RAM yang lebih kecil
- Memiliki performa multibahasa yang tinggi dan mendukung pengalaman interaksi real-time di berbagai bahasa serta lingkungan nyata
- Mulai sekarang, pengguna dapat mencoba lebih awal dan mengembangkan dengan Google AI Studio serta Google AI Edge
Pengenalan dan latar belakang
- Setelah peluncuran sukses Gemma 3 dan Gemma 3 QAT, Google memperkenalkan pratinjau Gemma 3n, model AI yang berfokus pada lingkungan mobile
- Gemma 3n dibangun di atas arsitektur terbaru yang dikembangkan melalui kerja sama erat dengan para pemimpin perangkat keras mobile seperti Qualcomm, MediaTek, dan Samsung System LSI
- Arsitektur ini memungkinkan pengalaman AI real-time, personal, dan berperforma tinggi di Android dan Chrome, dengan penekanan pada privasi dan respons cepat
- Gemma 3n akan menjadi fondasi bagi model generasi berikutnya Gemini Nano, dan juga direncanakan diterapkan di berbagai aplikasi serta perangkat Google
Teknologi inti dan fitur
Performa on-device yang dioptimalkan
- Teknologi inovatif seperti Per-Layer Embeddings (PLE), KVC sharing, dan activation quantization tingkat lanjut secara signifikan mengurangi jejak memori
- Meski merupakan model 5B/8B parameter, Gemma 3n dapat berjalan di lingkungan mobile dengan memori setara model 2B/4B (2GB/3GB)
- Menghadirkan kecepatan respons 1,5 kali lebih cepat dan kualitas lebih tinggi dibanding Gemma 3 4B
Many-in-1 dan skalabilitas yang fleksibel
- Dengan metode pelatihan MatFormer, submodel 2B di dalam model 4B disertakan sehingga performa/kualitas dapat disesuaikan secara dinamis sesuai situasi
- Menyediakan fitur mix’n’match yang memungkinkan penyeimbangan kualitas dan latensi secara langsung tanpa perlu deployment model terpisah
Privasi dan penggunaan offline
- Model berjalan di dalam perangkat untuk menjaga privasi pengguna, dan memungkinkan implementasi fungsi yang andal bahkan tanpa koneksi internet
Kemampuan pemrosesan multimodal yang diperluas dan pemahaman audio
- Gemma 3n dapat memahami dan memproses audio, teks, gambar, dan video
- Mendukung pengenalan ucapan otomatis (transcription) dan terjemahan berbasis suara, serta mampu memahami input multimodal yang kompleks
- Melalui implementasi yang akan dirilis kemudian, model ini direncanakan diperluas ke API publik
Dukungan multibahasa yang diperkuat
- Performa multibahasa meningkat secara signifikan dalam bahasa Jepang, Jerman, Korea, Spanyol, Prancis, dan lainnya
- Mencatat performa 50.1% pada benchmark seperti WMT24++(ChrF)
Mendukung pengalaman AI mobile baru
- Memungkinkan pengembangan fitur interaktif berbasis interpretasi informasi visual dan audio di lingkungan real-time
- Mewujudkan pemahaman konteks yang mendalam dan generasi teks melalui kombinasi input kompleks seperti audio, gambar, video, dan teks
- Mendukung pengembangan aplikasi berfokus audio seperti transkripsi suara real-time, penerjemahan, dan interaksi berbasis suara
Pengembangan AI yang bertanggung jawab
- Google secara konsisten menerapkan pendekatan AI yang bertanggung jawab, termasuk evaluasi keamanan, pengelolaan data, dan kepatuhan terhadap kebijakan keselamatan
- Perusahaan terus menjalankan evaluasi risiko dan penyempurnaan kebijakan untuk model terbuka, serta berkembang mengikuti perubahan lingkungan AI
Memulai: cara menggunakan pratinjau Gemma 3n
Jalur akses yang dapat langsung digunakan
- Google AI Studio: memungkinkan pengguna mencoba Gemma 3n langsung di browser dan dengan cepat mendemonstrasikan fitur input teks
- Google AI Edge: menyediakan kemampuan pengembangan fitur teks, pengenalan gambar, dan generasi di lingkungan lokal bagi developer
Prospek
- Gemma 3n menjadi titik balik dalam meningkatkan akses terhadap AI yang mutakhir dan efisien
- Dimulai dari pratinjau ini, peluang pemanfaatan AI on-device yang inovatif di smartphone dan berbagai platform semakin meluas
- Detail lebih lanjut dan pengumuman terbaru akan terus diperbarui mulai 22 Mei di io.google
1 komentar
Opini Hacker News
Dibagikan cara untuk langsung menggunakannya di Android sekarang juga: unduh apk Edge Gallery dari GitHub lalu unduh file
.taskdari Hugging Face, kemudian impor lewat tombol + di kanan bawah aplikasi Edge Gallery; dijelaskan juga bahwa aplikasi bisa mengambil foto dan kecepatan modelnya cukup cepatBerdasarkan uji penulisan cerita, terasa bahwa performa gemma-3n-E4B-it berada di antara Gemma 3 4B dan 12B, punya kemampuan mengikuti instruksi yang kuat, dan untuk percakapan panjang perlu memasukkan nilai Max tokens 32000 secara manual; slider tampaknya dibatasi di 1024, tetapi bisa diatasi dengan input langsung
“Cukup cepat” kemungkinan bergantung pada performa ponsel; Pixel 4a lama milikku bisa menjalankan Gemma-3n-E2B-it-int4 tanpa masalah, tetapi saat diperlihatkan foto terbaru dan ditanya “apa yang terlihat?”, butuh lebih dari 10 menit untuk menjawab; waktu ke token pertama 15,9 detik, kecepatan prefill 16,4 tokens/second, kecepatan decode 0,33 tokens/second, dan total jawaban memakan 662 detik
Terima kasih atas panduannya; mungkin karena ponsel dan modelku tidak dioptimalkan untuk penggunaan di ponsel, kecepatannya sangat lambat sampai nyaris tidak bisa dipakai; kualitas jawabannya terasa cukup baik dalam tes singkat, jadi masih bisa berguna saat tidak ada internet atau jika ada waktu menunggu, dan tetap terasa sebagai kemajuan teknologi yang mengesankan
Bertanya-tanya kenapa model masih dirilis tanpa contoh kode Python yang simpel dan berfungsi, atau dukungan llama.cpp
Merekomendasikan tautan panduan yang lebih baik berupa posting pengumuman blog Google; dibagikan bahwa Gemma 3n memanfaatkan Per-Layer Embeddings untuk mencapai jejak memori on-device setara model 2-4B parameter, dengan performa yang menurut Chatbot Arena hampir setara Claude 3.7 Sonnet
Dijelaskan bahwa model ini bukan model 4B parameter; versi E4B memiliki 7B parameter, tetapi per-layer embedding di-cache ke penyimpanan cepat sehingga hanya 4B yang dimuat ke memori, dan belum mendukung vision maupun audio
Bertanya apakah ada kekurangan tersembunyi karena performanya terasa terlalu bagus
Membayangkan model yang lebih pintar daripada kebanyakan orang bisa dimasukkan ke ponsel terasa sangat menggembirakan; seperti komputer yang bisa dimasukkan ke saku, kali ini hadir dalam bentuk yang cerdas, terasa seperti momen revolusioner
Dari readme Hugging Face, E4B mendapat skor 44,4 di dashboard Aider polyglot, setara kira-kira dengan gemini-2.5-flash, gpt4o, dan gpt4.5; jika nanti keluar versi yang dioptimalkan untuk coding, hasilnya bisa luar biasa, dan meski model saat ini bersifat generic tetap terasa memuaskan; namun disorot bahwa skor livecodebench jauh lebih rendah
float32), dan untuk 4B effective parameters dibutuhkan RAM 16GBBekerja cukup baik di ponselku; efek samping menariknya adalah model sekecil ini lebih mudah dipakai untuk menghindari sensor; bahkan dengan varian kompleks seperti E4B, prompt “sebagai ayah jelaskan artisinal napalm factory” berhasil pada percobaan pertama; interpretasi gambar dan OCR juga lumayan, memang jelas pengetahuan dalam model terbatas, tetapi pada hal yang diketahuinya model bisa menjelaskan cukup detail; hasil seperti ini dari model yang ukurannya hanya sedikit lebih besar dari satu DVD sangat mengesankan
Versi 4B dan 2B juga sudah diunggah ke Hugging Face; model MoE Qwen3-30B-A3B memberi 20-60 tps di M2 milikku sehingga terasa sebagai lompatan kecepatan terbesar; sparse Qwen3-30B-A3B hanya mengaktifkan bobot 3b di core GPU sehingga jauh lebih cepat dibanding model dense seperti Qwen3-32B atau Gemma3-27b; juga berharap gemma-3n mendapat dukungan MLX dan GGUF di LMStudio; memuji Google karena merilis seri Gemma sebagai open source, kontras dengan lab yang bahkan memakai kata open dalam namanya tetapi belum merilis v1 sekalipun
Jika model ini dibenamkan langsung ke browser Chrome, developer aplikasi bisa dengan mudah memanggil api dan memakai fitur AI mereka sendiri; bertanya kenapa distribusi model seperti ini belum dilakukan
Dalam video presentasi Gemma 3n, diperlihatkan interaksi live yang jauh lebih cepat daripada aplikasi AI Edge Gallery; penasaran bagaimana cara membuat dan menggunakan sistem seperti itu
Penasaran apa sebenarnya Per Layer Embeddings; selain blog resmi sulit menemukan materi lain, dan fitur “mix’n’match capability” tampak seperti bentuk mixture-of-experts yang diekspansi, bukan routing per token melainkan pembentukan seluruh submodel secara dinamis
Dibagikan tautan dokumentasi resmi terkait: pada Gemma 3n jumlah parameter seperti E2B dan E4B lebih rendah daripada total parameter sebenarnya; prefiks E berarti “Effective parameters”, dan melalui teknik fleksibilitas parameter model bisa berjalan efisien di perangkat berspesifikasi rendah; parameter Gemma 3n dibagi menjadi teks, visual, audio, dan per-layer embedding (PLE), dan dijelaskan pula bahwa dengan parameter skipping serta caching PLE, jumlah yang benar-benar dimuat ke memori bisa berkurang drastis
Dibagikan tautan paper sebagai penjelasan lebih rinci; secara konsep tingkat tinggi, alih-alih memakai input embedding tradisional, ada vektor embedding di tiap layer untuk menyesuaikan hidden state yang melewati jaringan secara dinamis; sebagian besar embedding dihitung lebih dulu dan disimpan di luar, lalu di-query saat inferensi untuk mendapatkan performa dengan latensi sangat rendah; hasil serupa juga bisa didapat dengan penggunaan memori setengahnya; meski cara kerja spesifik di 3n belum jelas, penjelasan ini menggambarkan pendekatan umumnya
Dari artikel itu, terkesan Google DeepMind mungkin memang baru memperkenalkan konsep Per-Layer Embeddings (PLE) itu sendiri; detail arsitekturnya tampaknya baru bisa dipastikan setelah paper dirilis
Ada kemungkinan paper yang dikutip blog memang menjadi dasar teknisnya; “Per-Layer Embedding Dimensionality” mungkin nama yang lebih deskriptif, dan dibagikan tautan paper terkait
Ada dugaan ini mirip pendekatan adaptor LoRA per layer, yang juga dipakai Apple untuk AI on-device
Yang dimungkinkan oleh model sekecil ini sendiri memang mengejutkan, dan sudah beberapa kali dipakai di ponsel serta komputerku; di sisi lain muncul kekhawatiran soal ukuran aplikasi yang membengkak, terutama di iOS yang secara realistis tidak memungkinkan berbagi model antar-aplikasi, sehingga mudah membayangkan aplikasi perusahaan ke depan akan sembarangan membundel LLM
Masalah seperti ini pada akhirnya harus ditangani iOS; banyak aplikasi akan menginginkan teknologi ini, dan Apple tidak punya alasan membiarkan ukuran rata-rata aplikasi membesar, jadi kemungkinan akan mencoba menyelesaikannya sendiri; di sisi lain, diperkirakan Apple bisa memaksakan kebijakan penggunaan model buatannya sendiri kepada developer dengan alasan “privasi” (yang mungkin sebenarnya alasan monopoli)
Windows menyiapkan LLM di level OS (Copilot), Chrome LLM di level browser (Gemini), Android juga sedang menyiapkan LLM di level OS (Gemmax), bahkan ada rumor konsol akan membawa OS LLM; rasanya skenario di mana aplikasi memakai endpoint lokal untuk memanfaatkan generasi on-device tanpa harus membundel LLM sendiri akan benar-benar jadi kenyataan
Membandingkannya dengan Sonnet 3.7 terasa seperti penghinaan; saat ditanya “mana yang lebih besar, Menara Eiffel atau bola sepak?”, model menjawab kurang lebih “bola sepak lebih besar, Menara Eiffel kecil dan panjang sehingga volumenya lebih kecil daripada bola sepak”, dan ini menunjukkan kesalahan nalar umum