- Google DeepMind mengumumkan Gemma 4, model AI terbuka generasi berikutnya berbasis teknologi Gemini 3, yang dirancang dengan arsitektur untuk memaksimalkan efisiensi kecerdasan per parameter
- Model ini tersedia dalam empat ukuran: E2B, E4B, 26B, 31B, serta mendukung rentang eksekusi yang luas, dari mobile·IoT hingga lingkungan GPU pribadi
- Fitur utama mencakup penalaran multimodal, dukungan 140 bahasa, alur kerja agentic, fine-tuning terperinci, dan arsitektur efisien
- Performanya meningkat signifikan dibanding Gemma 3 pada area matematika, coding, dan pemahaman multimodal, sementara standar keamanan dan keandalan dipertahankan setara dengan model komersial Google
- Bobot model dapat diunduh dari Hugging Face, Ollama, Kaggle, LM Studio, Docker dan mendukung eksekusi terintegrasi di lingkungan lokal maupun cloud
Gemma 4 — model AI terbuka generasi berikutnya
- Gemma 4 adalah model terbuka terbaru dari Google DeepMind yang dikembangkan berdasarkan riset dan teknologi Gemini 3, dengan arsitektur yang memaksimalkan efisiensi kecerdasan per parameter (intelligence-per-parameter)
- Model ini tersedia dalam empat ukuran: E2B, E4B, 26B, 31B, dan dapat dijalankan di berbagai lingkungan, dari mobile·IoT hingga workstation pribadi
- Fitur utamanya mencakup penalaran multimodal, dukungan 140 bahasa, alur kerja agentic, fine-tuning terperinci, dan arsitektur efisien
- Dalam benchmark performa, Gemma 4 mencatat peningkatan menyeluruh dibanding Gemma 3, khususnya di area matematika, coding, dan pemahaman multimodal
- Standar keamanan dan keandalan dipertahankan pada level yang sama dengan model komersial Google, dan bobot model dapat diunduh dari Hugging Face, Ollama, Kaggle, LM Studio, Docker, dan lainnya
Konfigurasi model dan efisiensi
- Gemma 4 dirancang berbasis teknologi Gemini 3 dengan mengadopsi struktur model terbuka yang memaksimalkan efisiensi kecerdasan
- Ukuran model dibagi menjadi empat versi: E2B, E4B, 26B, 31B, dan tiap versi dioptimalkan berdasarkan sumber daya komputasi dan efisiensi memori
- E2B·E4B: untuk perangkat mobile dan IoT, mendukung efisiensi maksimal dan eksekusi offline
- 26B·31B: memberikan kemampuan penalaran kelas frontier di lingkungan GPU pribadi
Fitur utama
-
Agentic workflows
- Mendukung function calling secara native, sehingga memungkinkan pembangunan agen otonom yang dapat merencanakan, menjelajahi aplikasi, dan menjalankan tugas atas nama pengguna
-
Multimodal reasoning
- Menggabungkan kemampuan memahami audio dan visual untuk mendukung pengembangan aplikasi multimodal yang kaya
-
Support for 140 languages
- Melampaui sekadar terjemahan dengan memungkinkan penciptaan pengalaman multibahasa yang juga mencakup pemahaman konteks budaya
-
Fine tuning
- Pengguna dapat melakukan fine-tuning untuk meningkatkan performa pada tugas tertentu dengan framework dan teknik yang mereka pilih
-
Efficient architecture
- Dapat dijalankan pada hardware sendiri, serta menyediakan lingkungan pengembangan dan deployment yang efisien
Performa
- Gemma 4 dievaluasi berdasarkan beragam dataset dan metrik terkait generasi teks
- Hasil benchmark utama (berdasarkan Gemma 4 31B IT):
- Arena AI (text): 1452 (dibanding 1365 pada Gemma 3 27B)
- MMMLU (Q&A multibahasa): 85.2%
- MMMU Pro (penalaran multimodal): 76.9%
- AIME 2026 (matematika): 89.2%
- LiveCodeBench v6 (soal coding): 80.0%
- GPQA Diamond (pengetahuan sains): 84.3%
- τ2-bench (penggunaan tool oleh agen): 86.4%
- Secara keseluruhan, performanya meningkat di semua metrik dibanding Gemma 3, terutama pada area matematika, coding, dan pemahaman multimodal
E2B dan E4B — untuk mobile dan IoT
- Mendukung audio dan vision untuk memungkinkan pemrosesan real-time di edge device
- Menawarkan eksekusi sepenuhnya offline dan performa latency nyaris nol di smartphone, Raspberry Pi, Jetson Nano, dan perangkat serupa
- Dapat dicoba melalui Google AI Edge Gallery
26B dan 31B — AI lokal berperforma tinggi
- Menyediakan kemampuan penalaran tingkat lanjut yang cocok untuk IDE, coding assistant, dan alur kerja agentic
- Dioptimalkan untuk GPU konsumen, sehingga mahasiswa, peneliti, dan developer dapat membangun lingkungan server AI lokal
- Dapat dijalankan langsung di Google AI Studio
Keamanan dan keandalan
- Gemma 4 menerapkan protokol keamanan infrastruktur yang sama dengan model komersial Google
- Menyediakan fondasi yang transparan dan dapat dipercaya untuk digunakan oleh perusahaan dan lembaga publik
- Tetap memenuhi standar keamanan dan keandalan tertinggi sambil menghadirkan fitur AI terbaru
Unduh dan jalankan
-
Unduh bobot model
- Bobot model Gemma 4 tersedia di Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
-
Dukungan pelatihan dan deployment
- Mendukung integrasi dengan berbagai platform seperti Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
- Lingkungan pelatihan, deployment, dan inferensi dapat dikonfigurasi melalui dokumentasi resmi dan API
Komunitas Gemmaverse
- Melalui Gemmaverse, developer di seluruh dunia dapat menjelajahi proyek yang dibangun dengan Gemma
- Update terbaru tersedia melalui kanal Google DeepMind di X, Instagram, YouTube, LinkedIn, GitHub
- Dengan berlangganan, pengguna dapat menerima kabar inovasi AI terbaru
2 komentar
Komentar Hacker News
Versi Gemma 4 yang mengintegrasikan reasoning, multimodal, dan pemanggilan tool telah dirilis.
Model terkuantisasi bisa diunduh dari koleksi Hugging Face, dan panduan Unsloth juga disediakan.
Parameter yang direkomendasikan adalah temperature=1.0, top_p=0.95, top_k=64, EOS adalah
", dan thinking trace menggunakan<|channel>thought\nSaya membangun pipeline OCR, embedding, dan peringkasan untuk membuat catatan tanah dari abad ke-19 bisa ditelusuri.
Berbasis GGUF dan llama.cpp, pencarian multibahasa kini dimungkinkan, dan waktu tunggu pemrosesan 1 menit terasa bukan masalah sama sekali.
--reasoning-budget 0maupun--chat-template-kwargs '{"enable_thinking":false}'tidak berfungsi.Saya menemukan bahwa harus memakai flag baru
--reasoning off.Saya menguji unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL di MacBook Air M4 (32GB), dan hasilnya jauh lebih mengesankan daripada qwen3.5-35b-a3b.
PowerShell memasang beberapa komponen lalu meminta membuka URL
localhost, tetapi tepat setelah itu gagal.Saya bukan developer, jadi penggunaan PowerShell terasa asing dan sulit; akan bagus jika didistribusikan dalam bentuk satu file executable (.exe).
Saya menguji model-model Gemma 4 di LM Studio.
Model 2B dan 4B menghasilkan gambar pelikan aneh, sementara model 26B-A4B memberi hasil terbaik yang pernah saya lihat sejauh ini.
Saya membagikan hasil pengujian.
Model 31B di lokal hanya mengeluarkan "---\n", tetapi di AI Studio API berjalan normal.
Contoh: clocks.brianmoore.com
Saya merapikan tabel yang membandingkan benchmark Gemma 4 dan Qwen 3.5.
Mencakup berbagai metrik seperti MMLU-Pro, GPQA, dan Codeforces ELO.
Saat membandingkan Qwen 3.5-27B dengan Gemma 4 26B/31B, ada bagian di mana hasilnya terbalik.
Tim Unsloth sangat mengesankan karena cepat merilis GGUF, dan jika memang setara dengan Qwen 3.5, itu sangat menggembirakan.
Model Gemma kecil jauh lebih lemah daripada model kecil Qwen.
Lihat Qwen3.5-4B dan thread Reddit terkait Gemma 4.
Saya bagian dari tim Gemma dan ikut mengerjakan major release kali ini.
Jika ada pertanyaan, saya bisa menjawab.
Lihat blog terkait.
Saya berharap ada model kelas menengah untuk bersaing dengan Qwen3.5 9B.
Mungkin benchmark itu sendiri mendistorsi perbandingan?
Tautan perbandingan
Saya membandingkan Gemma 4 dan Qwen 3.5 dengan prompt perhitungan Unix timestamp.
Qwen berpikir lebih dari 8 menit lalu memberi jawaban benar, sedangkan Gemma memberi hasil salah hanya dalam 30 detik.
Gemma menulis skrip Python tetapi tidak bisa menjalankannya, sehingga jawabannya salah.
Jika tidak, model hanya bisa menebak-nebak.
datebekerja benar di lingkungan GNU.Di macOS,
gdateharus dipasang (brew install coreutils).tautan gist
Hasilnya hanyalah eksekusi “khayalan” dari model.
MAX nightly dari Modular adalah implementasi open source tercepat di Blackwell dan AMD MI355.
Menurut blog Modular, ini bisa langsung dipasang via pip.
Benchmark Gemma 4 yang berpusat pada ELO berpotensi menyesatkan.
Pada sebagian besar metrik, hasilnya lebih rendah daripada Qwen 3.5 27B.
Namun model 2B dan 4B tetap menarik untuk penggunaan ASR atau OCR.
Saya lebih percaya skor Lmarena (berbasis evaluasi manusia).
Tautan perbandingan
Akhirnya rilis yang saya tunggu-tunggu keluar juga.
Kalau melewati satu-dua iterasi lagi, sepertinya ini akan memenuhi sebagian besar kebutuhan bahkan di lingkungan self-hosting.
Dulu tanya-jawab sederhana sudah cukup, tetapi sekarang saya berharap level coding agent.
Model open saat ini memang belum sampai sana, tetapi rilis ini tetap menjanjikan.
Keduanya menangani sebagian besar pekerjaan terjemahan, klasifikasi, dan kategorisasi saya.
Hal terbaik dari rilis kali ini adalah lisensi Apache 2.0.
Ada model E2B, E4B (untuk mobile), 26B-A4B (MoE), dan 31B (dense besar).
Versi mobile mendukung input audio, dan 31B kuat untuk tugas agent.
26B-A4B punya efisiensi VRAM yang mirip, tetapi kecepatan inferensinya jauh lebih tinggi.
Saya menyuruh Gemma 4 26B dan Qwen 3.5 27B mengerjakan proyek Rust kecil untuk dibandingkan.
Qwen menyerah setelah lebih dari 1 jam, sementara Gemma menyerah dalam 20 menit.
Menurut ringkasan Codex, Qwen lebih matang secara struktural, sedangkan Gemma lebih cepat tetapi belum selesai.
Saya juga setuju dengan penilaian itu.
Lihat PR terkait dan issue.
Jangan terlalu cepat menyimpulkan pada awal perilisan.
26B-A4B seharusnya dibandingkan dengan Qwen 3.5 35B-A3B.
Sayangnya rumor 120b ternyata tidak benar.