Google merilis model terbuka Gemma 4

(deepmind.google)

10 poin oleh GN⁺ 2026-04-03 | 2 komentar | Bagikan ke WhatsApp

Google DeepMind mengumumkan Gemma 4, model AI terbuka generasi berikutnya berbasis teknologi Gemini 3, yang dirancang dengan arsitektur untuk memaksimalkan efisiensi kecerdasan per parameter
Model ini tersedia dalam empat ukuran: E2B, E4B, 26B, 31B, serta mendukung rentang eksekusi yang luas, dari mobile·IoT hingga lingkungan GPU pribadi
Fitur utama mencakup penalaran multimodal, dukungan 140 bahasa, alur kerja agentic, fine-tuning terperinci, dan arsitektur efisien
Performanya meningkat signifikan dibanding Gemma 3 pada area matematika, coding, dan pemahaman multimodal, sementara standar keamanan dan keandalan dipertahankan setara dengan model komersial Google
Bobot model dapat diunduh dari Hugging Face, Ollama, Kaggle, LM Studio, Docker dan mendukung eksekusi terintegrasi di lingkungan lokal maupun cloud

Gemma 4 — model AI terbuka generasi berikutnya

Gemma 4 adalah model terbuka terbaru dari Google DeepMind yang dikembangkan berdasarkan riset dan teknologi Gemini 3, dengan arsitektur yang memaksimalkan efisiensi kecerdasan per parameter (intelligence-per-parameter)
Model ini tersedia dalam empat ukuran: E2B, E4B, 26B, 31B, dan dapat dijalankan di berbagai lingkungan, dari mobile·IoT hingga workstation pribadi
Fitur utamanya mencakup penalaran multimodal, dukungan 140 bahasa, alur kerja agentic, fine-tuning terperinci, dan arsitektur efisien
Dalam benchmark performa, Gemma 4 mencatat peningkatan menyeluruh dibanding Gemma 3, khususnya di area matematika, coding, dan pemahaman multimodal
Standar keamanan dan keandalan dipertahankan pada level yang sama dengan model komersial Google, dan bobot model dapat diunduh dari Hugging Face, Ollama, Kaggle, LM Studio, Docker, dan lainnya

Konfigurasi model dan efisiensi

Gemma 4 dirancang berbasis teknologi Gemini 3 dengan mengadopsi struktur model terbuka yang memaksimalkan efisiensi kecerdasan
Ukuran model dibagi menjadi empat versi: E2B, E4B, 26B, 31B, dan tiap versi dioptimalkan berdasarkan sumber daya komputasi dan efisiensi memori
- E2B·E4B: untuk perangkat mobile dan IoT, mendukung efisiensi maksimal dan eksekusi offline
- 26B·31B: memberikan kemampuan penalaran kelas frontier di lingkungan GPU pribadi

Fitur utama

Agentic workflows
- Mendukung function calling secara native, sehingga memungkinkan pembangunan agen otonom yang dapat merencanakan, menjelajahi aplikasi, dan menjalankan tugas atas nama pengguna
Multimodal reasoning
- Menggabungkan kemampuan memahami audio dan visual untuk mendukung pengembangan aplikasi multimodal yang kaya
Support for 140 languages
- Melampaui sekadar terjemahan dengan memungkinkan penciptaan pengalaman multibahasa yang juga mencakup pemahaman konteks budaya
Fine tuning
- Pengguna dapat melakukan fine-tuning untuk meningkatkan performa pada tugas tertentu dengan framework dan teknik yang mereka pilih
Efficient architecture
- Dapat dijalankan pada hardware sendiri, serta menyediakan lingkungan pengembangan dan deployment yang efisien

Performa

Gemma 4 dievaluasi berdasarkan beragam dataset dan metrik terkait generasi teks
Hasil benchmark utama (berdasarkan Gemma 4 31B IT):
- Arena AI (text): 1452 (dibanding 1365 pada Gemma 3 27B)
- MMMLU (Q&A multibahasa): 85.2%
- MMMU Pro (penalaran multimodal): 76.9%
- AIME 2026 (matematika): 89.2%
- LiveCodeBench v6 (soal coding): 80.0%
- GPQA Diamond (pengetahuan sains): 84.3%
- τ2-bench (penggunaan tool oleh agen): 86.4%
Secara keseluruhan, performanya meningkat di semua metrik dibanding Gemma 3, terutama pada area matematika, coding, dan pemahaman multimodal

E2B dan E4B — untuk mobile dan IoT

Mendukung audio dan vision untuk memungkinkan pemrosesan real-time di edge device
Menawarkan eksekusi sepenuhnya offline dan performa latency nyaris nol di smartphone, Raspberry Pi, Jetson Nano, dan perangkat serupa
Dapat dicoba melalui Google AI Edge Gallery

26B dan 31B — AI lokal berperforma tinggi

Menyediakan kemampuan penalaran tingkat lanjut yang cocok untuk IDE, coding assistant, dan alur kerja agentic
Dioptimalkan untuk GPU konsumen, sehingga mahasiswa, peneliti, dan developer dapat membangun lingkungan server AI lokal
Dapat dijalankan langsung di Google AI Studio

Keamanan dan keandalan

Gemma 4 menerapkan protokol keamanan infrastruktur yang sama dengan model komersial Google
Menyediakan fondasi yang transparan dan dapat dipercaya untuk digunakan oleh perusahaan dan lembaga publik
Tetap memenuhi standar keamanan dan keandalan tertinggi sambil menghadirkan fitur AI terbaru

Unduh dan jalankan

Unduh bobot model
- Bobot model Gemma 4 tersedia di Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
Dukungan pelatihan dan deployment
- Mendukung integrasi dengan berbagai platform seperti Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
- Lingkungan pelatihan, deployment, dan inferensi dapat dikonfigurasi melalui dokumentasi resmi dan API

Komunitas Gemmaverse

Melalui Gemmaverse, developer di seluruh dunia dapat menjelajahi proyek yang dibangun dengan Gemma
Update terbaru tersedia melalui kanal Google DeepMind di X, Instagram, YouTube, LinkedIn, GitHub
Dengan berlangganan, pengguna dapat menerima kabar inovasi AI terbaru

2 komentar

GN⁺ 2026-04-03

Komentar Hacker News

Versi Gemma 4 yang mengintegrasikan reasoning, multimodal, dan pemanggilan tool telah dirilis.
Model terkuantisasi bisa diunduh dari koleksi Hugging Face, dan panduan Unsloth juga disediakan.
Parameter yang direkomendasikan adalah temperature=1.0, top_p=0.95, top_k=64, EOS adalah ", dan thinking trace menggunakan <|channel>thought\n
- Pekerjaan Daniel sedang mengubah dunia.
  Saya membangun pipeline OCR, embedding, dan peringkasan untuk membuat catatan tanah dari abad ke-19 bisa ditelusuri.
  Berbasis GGUF dan llama.cpp, pencarian multibahasa kini dimungkinkan, dan waktu tunggu pemrosesan 1 menit terasa bukan masalah sama sekali.
- Saya mencoba mematikan “thinking” di llama.cpp, tetapi --reasoning-budget 0 maupun --chat-template-kwargs '{"enable_thinking":false}' tidak berfungsi.
  Saya menemukan bahwa harus memakai flag baru --reasoning off.
  Saya menguji unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL di MacBook Air M4 (32GB), dan hasilnya jauh lebih mengesankan daripada qwen3.5-35b-a3b.
- Tangkapan layar pada langkah “Search and download Gemma 4” di panduan justru untuk qwen3.5, dan di Unsloth Studio hanya model Gemma 3 yang terlihat.
- Mungkin ini pertanyaan pemula, tetapi saya penasaran kenapa harus memakai versi ini alih-alih model aslinya.
- Saat memasang Gemma 4 dengan Unsloth di Windows 11, terjadi error pada tahap pengaturan kata sandi.
  PowerShell memasang beberapa komponen lalu meminta membuka URL localhost, tetapi tepat setelah itu gagal.
  Saya bukan developer, jadi penggunaan PowerShell terasa asing dan sulit; akan bagus jika didistribusikan dalam bentuk satu file executable (.exe).
Saya menguji model-model Gemma 4 di LM Studio.
Model 2B dan 4B menghasilkan gambar pelikan aneh, sementara model 26B-A4B memberi hasil terbaik yang pernah saya lihat sejauh ini.
Saya membagikan hasil pengujian.
Model 31B di lokal hanya mengeluarkan "---\n", tetapi di AI Studio API berjalan normal.
- Berkat benchmark pelikan itu, saya jadi selalu memeriksa komentar Hacker News setiap kali model baru dirilis.
- Saya jadi penasaran apakah pelikan sekarang sudah menjadi bagian dari data pelatihan.
- Akan bagus jika ada halaman galeri untuk melihat semua gambar pelikan sekaligus.
  Contoh: clocks.brianmoore.com
- Jika memakai versi instruction-tuned, sepertinya kualitas pelikan akan jauh lebih baik.
- Saya penasaran spesifikasi laptop apa yang dipakai untuk menjalankannya.
Saya merapikan tabel yang membandingkan benchmark Gemma 4 dan Qwen 3.5.
Mencakup berbagai metrik seperti MMLU-Pro, GPQA, dan Codeforces ELO.
- Skor ELO sangat berbeda dari grafik tfa.
  Saat membandingkan Qwen 3.5-27B dengan Gemma 4 26B/31B, ada bagian di mana hasilnya terbalik.
  Tim Unsloth sangat mengesankan karena cepat merilis GGUF, dan jika memang setara dengan Qwen 3.5, itu sangat menggembirakan.
- Sebagai pengguna dengan GPU 24GB, saya kurang tahu model mana yang sebaiknya dipilih dari tabel ini.
- Membalik sumbu dan menghapus beberapa model justru bisa menimbulkan salah paham.
  Model Gemma kecil jauh lebih lemah daripada model kecil Qwen.
  Lihat Qwen3.5-4B dan thread Reddit terkait Gemma 4.
Saya bagian dari tim Gemma dan ikut mengerjakan major release kali ini.
Jika ada pertanyaan, saya bisa menjawab.
- Saya penasaran apakah ada rencana merilis versi quantization aware training (QAT) seperti pada Gemma 3.
  Lihat blog terkait.
- Saya penasaran kenapa versi 12B tidak ada kali ini.
  Saya berharap ada model kelas menengah untuk bersaing dengan Qwen3.5 9B.
- Saya penasaran apakah “major number release” benar-benar berarti peningkatan skala sumber daya komputasi, atau justru menandakan peralihan ke arsitektur baru.
- Saya bertanya apakah ada alasan performanya terlihat lebih rendah pada benchmark selain skor ELO.
  Mungkin benchmark itu sendiri mendistorsi perbandingan?
- Dalam pengujian pribadi, performanya hampir setara Gemini 3 Pro, dengan biaya 10 kali lebih murah.
  Tautan perbandingan
Saya membandingkan Gemma 4 dan Qwen 3.5 dengan prompt perhitungan Unix timestamp.
Qwen berpikir lebih dari 8 menit lalu memberi jawaban benar, sedangkan Gemma memberi hasil salah hanya dalam 30 detik.
Gemma menulis skrip Python tetapi tidak bisa menjalankannya, sehingga jawabannya salah.
- Agar model benar-benar bisa mengeksekusi kode, dibutuhkan lingkungan agentic harness dengan sandboxing dan spesifikasi yang jelas.
  Jika tidak, model hanya bisa menebak-nebak.
- Perintah date bekerja benar di lingkungan GNU.
  Di macOS, gdate harus dipasang (brew install coreutils).
- Di lingkungan RX 9070 XT (24GB VRAM), saya mendapatkan hasil yang benar bahkan tanpa tool.
  tautan gist
- Penulis komentar asli tidak memberi model izin untuk benar-benar menjalankan perintah.
  Hasilnya hanyalah eksekusi “khayalan” dari model.
- Kalimat terakhirnya lucu.
MAX nightly dari Modular adalah implementasi open source tercepat di Blackwell dan AMD MI355.
Menurut blog Modular, ini bisa langsung dipasang via pip.
- Ada yang bertanya apakah ini lebih cepat daripada TensorRT-LLM, atau apakah ada alasan TensorRT-LLM tidak dianggap open source.
- Saya penasaran berapa besar rasio peningkatan kecepatan dibanding PyTorch.
Benchmark Gemma 4 yang berpusat pada ELO berpotensi menyesatkan.
Pada sebagian besar metrik, hasilnya lebih rendah daripada Qwen 3.5 27B.
Namun model 2B dan 4B tetap menarik untuk penggunaan ASR atau OCR.
- Benchmark publik mudah dimanipulasi.
  Saya lebih percaya skor Lmarena (berbasis evaluasi manusia).
- Dalam pengujian pribadi, hasilnya cukup bagus di luar coding.
  Tautan perbandingan
- Model-model Tiongkok performanya rendah pada tes privat seperti arc-agi 2.
- Benchmark hanya untuk referensi; cara paling akurat adalah mengujinya langsung pada use case nyata.
- Tidak jelas apa sebenarnya yang dimaksud dengan “ELO Score”.
Akhirnya rilis yang saya tunggu-tunggu keluar juga.
Kalau melewati satu-dua iterasi lagi, sepertinya ini akan memenuhi sebagian besar kebutuhan bahkan di lingkungan self-hosting.
- Saya juga setuju, tetapi “kebutuhan sehari-hari” saya makin kompleks tiap tahun.
  Dulu tanya-jawab sederhana sudah cukup, tetapi sekarang saya berharap level coding agent.
  Model open saat ini memang belum sampai sana, tetapi rilis ini tetap menjanjikan.
- Gemma3:27b dan Qwen3-vl:30b-a3b adalah LLM lokal yang paling sering saya gunakan.
  Keduanya menangani sebagian besar pekerjaan terjemahan, klasifikasi, dan kategorisasi saya.
- Saya penasaran untuk jenis pekerjaan apa self-hosting digunakan.
Hal terbaik dari rilis kali ini adalah lisensi Apache 2.0.
Ada model E2B, E4B (untuk mobile), 26B-A4B (MoE), dan 31B (dense besar).
Versi mobile mendukung input audio, dan 31B kuat untuk tugas agent.
26B-A4B punya efisiensi VRAM yang mirip, tetapi kecepatan inferensinya jauh lebih tinggi.
Saya menyuruh Gemma 4 26B dan Qwen 3.5 27B mengerjakan proyek Rust kecil untuk dibandingkan.
Qwen menyerah setelah lebih dari 1 jam, sementara Gemma menyerah dalam 20 menit.
Menurut ringkasan Codex, Qwen lebih matang secara struktural, sedangkan Gemma lebih cepat tetapi belum selesai.
Saya juga setuju dengan penilaian itu.
- Saat ini ada bug chat template yang membuat pemanggilan tool tidak stabil.
  Lihat PR terkait dan issue.
  Jangan terlalu cepat menyimpulkan pada awal perilisan.
- Qwen 3.5 27B adalah model dense, jadi lebih tepat dibandingkan dengan Gemma 4 31B.
  26B-A4B seharusnya dibandingkan dengan Qwen 3.5 35B-A3B.
- Qwen berarsitektur dense, sedangkan Gemma berarsitektur MoE, jadi sulit dibandingkan secara langsung.

eoeoe 2026-04-03

Sayangnya rumor 120b ternyata tidak benar.

Google merilis model terbuka Gemma 4

Gemma 4 — model AI terbuka generasi berikutnya

Konfigurasi model dan efisiensi

Fitur utama

Agentic workflows

Multimodal reasoning

Support for 140 languages

Fine tuning

Efficient architecture

Performa

E2B dan E4B — untuk mobile dan IoT

26B dan 31B — AI lokal berperforma tinggi

Keamanan dan keandalan

Unduh dan jalankan

Unduh bobot model

Dukungan pelatihan dan deployment

Komunitas Gemmaverse

Bacaan terkait

2 komentar

Komentar Hacker News