10 poin oleh GN⁺ 17 hari lalu | 2 komentar | Bagikan ke WhatsApp
  • Google DeepMind mengumumkan Gemma 4, model AI terbuka generasi berikutnya berbasis teknologi Gemini 3, yang dirancang dengan arsitektur untuk memaksimalkan efisiensi kecerdasan per parameter
  • Model ini tersedia dalam empat ukuran: E2B, E4B, 26B, 31B, serta mendukung rentang eksekusi yang luas, dari mobile·IoT hingga lingkungan GPU pribadi
  • Fitur utama mencakup penalaran multimodal, dukungan 140 bahasa, alur kerja agentic, fine-tuning terperinci, dan arsitektur efisien
  • Performanya meningkat signifikan dibanding Gemma 3 pada area matematika, coding, dan pemahaman multimodal, sementara standar keamanan dan keandalan dipertahankan setara dengan model komersial Google
  • Bobot model dapat diunduh dari Hugging Face, Ollama, Kaggle, LM Studio, Docker dan mendukung eksekusi terintegrasi di lingkungan lokal maupun cloud

Gemma 4 — model AI terbuka generasi berikutnya

  • Gemma 4 adalah model terbuka terbaru dari Google DeepMind yang dikembangkan berdasarkan riset dan teknologi Gemini 3, dengan arsitektur yang memaksimalkan efisiensi kecerdasan per parameter (intelligence-per-parameter)
  • Model ini tersedia dalam empat ukuran: E2B, E4B, 26B, 31B, dan dapat dijalankan di berbagai lingkungan, dari mobile·IoT hingga workstation pribadi
  • Fitur utamanya mencakup penalaran multimodal, dukungan 140 bahasa, alur kerja agentic, fine-tuning terperinci, dan arsitektur efisien
  • Dalam benchmark performa, Gemma 4 mencatat peningkatan menyeluruh dibanding Gemma 3, khususnya di area matematika, coding, dan pemahaman multimodal
  • Standar keamanan dan keandalan dipertahankan pada level yang sama dengan model komersial Google, dan bobot model dapat diunduh dari Hugging Face, Ollama, Kaggle, LM Studio, Docker, dan lainnya

Konfigurasi model dan efisiensi

  • Gemma 4 dirancang berbasis teknologi Gemini 3 dengan mengadopsi struktur model terbuka yang memaksimalkan efisiensi kecerdasan
  • Ukuran model dibagi menjadi empat versi: E2B, E4B, 26B, 31B, dan tiap versi dioptimalkan berdasarkan sumber daya komputasi dan efisiensi memori
    • E2B·E4B: untuk perangkat mobile dan IoT, mendukung efisiensi maksimal dan eksekusi offline
    • 26B·31B: memberikan kemampuan penalaran kelas frontier di lingkungan GPU pribadi

Fitur utama

  • Agentic workflows

    • Mendukung function calling secara native, sehingga memungkinkan pembangunan agen otonom yang dapat merencanakan, menjelajahi aplikasi, dan menjalankan tugas atas nama pengguna
  • Multimodal reasoning

    • Menggabungkan kemampuan memahami audio dan visual untuk mendukung pengembangan aplikasi multimodal yang kaya
  • Support for 140 languages

    • Melampaui sekadar terjemahan dengan memungkinkan penciptaan pengalaman multibahasa yang juga mencakup pemahaman konteks budaya
  • Fine tuning

    • Pengguna dapat melakukan fine-tuning untuk meningkatkan performa pada tugas tertentu dengan framework dan teknik yang mereka pilih
  • Efficient architecture

    • Dapat dijalankan pada hardware sendiri, serta menyediakan lingkungan pengembangan dan deployment yang efisien

Performa

  • Gemma 4 dievaluasi berdasarkan beragam dataset dan metrik terkait generasi teks
  • Hasil benchmark utama (berdasarkan Gemma 4 31B IT):
    • Arena AI (text): 1452 (dibanding 1365 pada Gemma 3 27B)
    • MMMLU (Q&A multibahasa): 85.2%
    • MMMU Pro (penalaran multimodal): 76.9%
    • AIME 2026 (matematika): 89.2%
    • LiveCodeBench v6 (soal coding): 80.0%
    • GPQA Diamond (pengetahuan sains): 84.3%
    • τ2-bench (penggunaan tool oleh agen): 86.4%
  • Secara keseluruhan, performanya meningkat di semua metrik dibanding Gemma 3, terutama pada area matematika, coding, dan pemahaman multimodal

E2B dan E4B — untuk mobile dan IoT

  • Mendukung audio dan vision untuk memungkinkan pemrosesan real-time di edge device
  • Menawarkan eksekusi sepenuhnya offline dan performa latency nyaris nol di smartphone, Raspberry Pi, Jetson Nano, dan perangkat serupa
  • Dapat dicoba melalui Google AI Edge Gallery

26B dan 31B — AI lokal berperforma tinggi

  • Menyediakan kemampuan penalaran tingkat lanjut yang cocok untuk IDE, coding assistant, dan alur kerja agentic
  • Dioptimalkan untuk GPU konsumen, sehingga mahasiswa, peneliti, dan developer dapat membangun lingkungan server AI lokal
  • Dapat dijalankan langsung di Google AI Studio

Keamanan dan keandalan

  • Gemma 4 menerapkan protokol keamanan infrastruktur yang sama dengan model komersial Google
  • Menyediakan fondasi yang transparan dan dapat dipercaya untuk digunakan oleh perusahaan dan lembaga publik
  • Tetap memenuhi standar keamanan dan keandalan tertinggi sambil menghadirkan fitur AI terbaru

Unduh dan jalankan

  • Unduh bobot model

    • Bobot model Gemma 4 tersedia di Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
  • Dukungan pelatihan dan deployment

    • Mendukung integrasi dengan berbagai platform seperti Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
    • Lingkungan pelatihan, deployment, dan inferensi dapat dikonfigurasi melalui dokumentasi resmi dan API

Komunitas Gemmaverse

  • Melalui Gemmaverse, developer di seluruh dunia dapat menjelajahi proyek yang dibangun dengan Gemma
  • Update terbaru tersedia melalui kanal Google DeepMind di X, Instagram, YouTube, LinkedIn, GitHub
  • Dengan berlangganan, pengguna dapat menerima kabar inovasi AI terbaru

2 komentar

 
GN⁺ 17 hari lalu
Komentar Hacker News
  • Versi Gemma 4 yang mengintegrasikan reasoning, multimodal, dan pemanggilan tool telah dirilis.
    Model terkuantisasi bisa diunduh dari koleksi Hugging Face, dan panduan Unsloth juga disediakan.
    Parameter yang direkomendasikan adalah temperature=1.0, top_p=0.95, top_k=64, EOS adalah ", dan thinking trace menggunakan <|channel>thought\n

    • Pekerjaan Daniel sedang mengubah dunia.
      Saya membangun pipeline OCR, embedding, dan peringkasan untuk membuat catatan tanah dari abad ke-19 bisa ditelusuri.
      Berbasis GGUF dan llama.cpp, pencarian multibahasa kini dimungkinkan, dan waktu tunggu pemrosesan 1 menit terasa bukan masalah sama sekali.
    • Saya mencoba mematikan “thinking” di llama.cpp, tetapi --reasoning-budget 0 maupun --chat-template-kwargs '{"enable_thinking":false}' tidak berfungsi.
      Saya menemukan bahwa harus memakai flag baru --reasoning off.
      Saya menguji unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL di MacBook Air M4 (32GB), dan hasilnya jauh lebih mengesankan daripada qwen3.5-35b-a3b.
    • Tangkapan layar pada langkah “Search and download Gemma 4” di panduan justru untuk qwen3.5, dan di Unsloth Studio hanya model Gemma 3 yang terlihat.
    • Mungkin ini pertanyaan pemula, tetapi saya penasaran kenapa harus memakai versi ini alih-alih model aslinya.
    • Saat memasang Gemma 4 dengan Unsloth di Windows 11, terjadi error pada tahap pengaturan kata sandi.
      PowerShell memasang beberapa komponen lalu meminta membuka URL localhost, tetapi tepat setelah itu gagal.
      Saya bukan developer, jadi penggunaan PowerShell terasa asing dan sulit; akan bagus jika didistribusikan dalam bentuk satu file executable (.exe).
  • Saya menguji model-model Gemma 4 di LM Studio.
    Model 2B dan 4B menghasilkan gambar pelikan aneh, sementara model 26B-A4B memberi hasil terbaik yang pernah saya lihat sejauh ini.
    Saya membagikan hasil pengujian.
    Model 31B di lokal hanya mengeluarkan "---\n", tetapi di AI Studio API berjalan normal.

    • Berkat benchmark pelikan itu, saya jadi selalu memeriksa komentar Hacker News setiap kali model baru dirilis.
    • Saya jadi penasaran apakah pelikan sekarang sudah menjadi bagian dari data pelatihan.
    • Akan bagus jika ada halaman galeri untuk melihat semua gambar pelikan sekaligus.
      Contoh: clocks.brianmoore.com
    • Jika memakai versi instruction-tuned, sepertinya kualitas pelikan akan jauh lebih baik.
    • Saya penasaran spesifikasi laptop apa yang dipakai untuk menjalankannya.
  • Saya merapikan tabel yang membandingkan benchmark Gemma 4 dan Qwen 3.5.
    Mencakup berbagai metrik seperti MMLU-Pro, GPQA, dan Codeforces ELO.

    • Skor ELO sangat berbeda dari grafik tfa.
      Saat membandingkan Qwen 3.5-27B dengan Gemma 4 26B/31B, ada bagian di mana hasilnya terbalik.
      Tim Unsloth sangat mengesankan karena cepat merilis GGUF, dan jika memang setara dengan Qwen 3.5, itu sangat menggembirakan.
    • Sebagai pengguna dengan GPU 24GB, saya kurang tahu model mana yang sebaiknya dipilih dari tabel ini.
    • Membalik sumbu dan menghapus beberapa model justru bisa menimbulkan salah paham.
      Model Gemma kecil jauh lebih lemah daripada model kecil Qwen.
      Lihat Qwen3.5-4B dan thread Reddit terkait Gemma 4.
  • Saya bagian dari tim Gemma dan ikut mengerjakan major release kali ini.
    Jika ada pertanyaan, saya bisa menjawab.

    • Saya penasaran apakah ada rencana merilis versi quantization aware training (QAT) seperti pada Gemma 3.
      Lihat blog terkait.
    • Saya penasaran kenapa versi 12B tidak ada kali ini.
      Saya berharap ada model kelas menengah untuk bersaing dengan Qwen3.5 9B.
    • Saya penasaran apakah “major number release” benar-benar berarti peningkatan skala sumber daya komputasi, atau justru menandakan peralihan ke arsitektur baru.
    • Saya bertanya apakah ada alasan performanya terlihat lebih rendah pada benchmark selain skor ELO.
      Mungkin benchmark itu sendiri mendistorsi perbandingan?
    • Dalam pengujian pribadi, performanya hampir setara Gemini 3 Pro, dengan biaya 10 kali lebih murah.
      Tautan perbandingan
  • Saya membandingkan Gemma 4 dan Qwen 3.5 dengan prompt perhitungan Unix timestamp.
    Qwen berpikir lebih dari 8 menit lalu memberi jawaban benar, sedangkan Gemma memberi hasil salah hanya dalam 30 detik.
    Gemma menulis skrip Python tetapi tidak bisa menjalankannya, sehingga jawabannya salah.

    • Agar model benar-benar bisa mengeksekusi kode, dibutuhkan lingkungan agentic harness dengan sandboxing dan spesifikasi yang jelas.
      Jika tidak, model hanya bisa menebak-nebak.
    • Perintah date bekerja benar di lingkungan GNU.
      Di macOS, gdate harus dipasang (brew install coreutils).
    • Di lingkungan RX 9070 XT (24GB VRAM), saya mendapatkan hasil yang benar bahkan tanpa tool.
      tautan gist
    • Penulis komentar asli tidak memberi model izin untuk benar-benar menjalankan perintah.
      Hasilnya hanyalah eksekusi “khayalan” dari model.
    • Kalimat terakhirnya lucu.
  • MAX nightly dari Modular adalah implementasi open source tercepat di Blackwell dan AMD MI355.
    Menurut blog Modular, ini bisa langsung dipasang via pip.

    • Ada yang bertanya apakah ini lebih cepat daripada TensorRT-LLM, atau apakah ada alasan TensorRT-LLM tidak dianggap open source.
    • Saya penasaran berapa besar rasio peningkatan kecepatan dibanding PyTorch.
  • Benchmark Gemma 4 yang berpusat pada ELO berpotensi menyesatkan.
    Pada sebagian besar metrik, hasilnya lebih rendah daripada Qwen 3.5 27B.
    Namun model 2B dan 4B tetap menarik untuk penggunaan ASR atau OCR.

    • Benchmark publik mudah dimanipulasi.
      Saya lebih percaya skor Lmarena (berbasis evaluasi manusia).
    • Dalam pengujian pribadi, hasilnya cukup bagus di luar coding.
      Tautan perbandingan
    • Model-model Tiongkok performanya rendah pada tes privat seperti arc-agi 2.
    • Benchmark hanya untuk referensi; cara paling akurat adalah mengujinya langsung pada use case nyata.
    • Tidak jelas apa sebenarnya yang dimaksud dengan “ELO Score”.
  • Akhirnya rilis yang saya tunggu-tunggu keluar juga.
    Kalau melewati satu-dua iterasi lagi, sepertinya ini akan memenuhi sebagian besar kebutuhan bahkan di lingkungan self-hosting.

    • Saya juga setuju, tetapi “kebutuhan sehari-hari” saya makin kompleks tiap tahun.
      Dulu tanya-jawab sederhana sudah cukup, tetapi sekarang saya berharap level coding agent.
      Model open saat ini memang belum sampai sana, tetapi rilis ini tetap menjanjikan.
    • Gemma3:27b dan Qwen3-vl:30b-a3b adalah LLM lokal yang paling sering saya gunakan.
      Keduanya menangani sebagian besar pekerjaan terjemahan, klasifikasi, dan kategorisasi saya.
    • Saya penasaran untuk jenis pekerjaan apa self-hosting digunakan.
  • Hal terbaik dari rilis kali ini adalah lisensi Apache 2.0.
    Ada model E2B, E4B (untuk mobile), 26B-A4B (MoE), dan 31B (dense besar).
    Versi mobile mendukung input audio, dan 31B kuat untuk tugas agent.
    26B-A4B punya efisiensi VRAM yang mirip, tetapi kecepatan inferensinya jauh lebih tinggi.

  • Saya menyuruh Gemma 4 26B dan Qwen 3.5 27B mengerjakan proyek Rust kecil untuk dibandingkan.
    Qwen menyerah setelah lebih dari 1 jam, sementara Gemma menyerah dalam 20 menit.
    Menurut ringkasan Codex, Qwen lebih matang secara struktural, sedangkan Gemma lebih cepat tetapi belum selesai.
    Saya juga setuju dengan penilaian itu.

    • Saat ini ada bug chat template yang membuat pemanggilan tool tidak stabil.
      Lihat PR terkait dan issue.
      Jangan terlalu cepat menyimpulkan pada awal perilisan.
    • Qwen 3.5 27B adalah model dense, jadi lebih tepat dibandingkan dengan Gemma 4 31B.
      26B-A4B seharusnya dibandingkan dengan Qwen 3.5 35B-A3B.
    • Qwen berarsitektur dense, sedangkan Gemma berarsitektur MoE, jadi sulit dibandingkan secara langsung.
 
eoeoe 17 hari lalu

Sayangnya rumor 120b ternyata tidak benar.