Gemma 4 12B: model multimodal tanpa encoder terintegrasi
(blog.google)- Gemma 4 12B adalah model berukuran menengah yang dirancang untuk menjalankan kecerdasan multimodal bergaya agen di laptop, mengisi celah antara E4B yang ramah edge dan 26B MoE yang lebih canggih
- Dengan arsitektur terpadu tanpa encoder, model ini memilih pendekatan mengalirkan input gambar dan audio langsung ke backbone LLM tanpa encoder multimodal terpisah untuk mengurangi latensi dan penggunaan memori
- Performa benchmark standarnya mendekati model 26B MoE yang lebih besar, sementara penggunaan memori totalnya kurang dari setengahnya, sehingga dapat dijalankan secara lokal di laptop konsumen dengan RAM 16GB atau lingkungan VRAM/memori terpadu
- Gemma 4 12B adalah model berukuran menengah pertama di keluarga Gemma yang mendukung input audio native, dan menargetkan pengurangan latensi dengan Multi-Token Prediction drafters
- Model Gemma 4 telah melampaui 150 juta unduhan, dan Gemma 4 12B memperluas cakupan pengembangan agen multimodal lokal dengan lisensi Apache 2.0 serta dukungan untuk alat pengembang utama dan jalur deployment
Fitur utama
- Gemma 4 12B dirancang untuk menghadirkan kecerdasan multimodal berperforma tinggi langsung ke laptop, menggabungkan efisiensi yang mengutamakan mobile dengan penalaran tingkat lanjut
- Model ini berada di antara E4B yang ramah edge dan Mixture of Experts(MoE) 26B yang lebih canggih, menghadirkan kemampuan kuat dalam jejak memori yang lebih kecil
- Fitur utamanya meliputi
- arsitektur terpadu yang mengirim input visual dan audio langsung ke backbone LLM tanpa encoder multimodal
- performa benchmark yang mendekati model 26B serta dukungan untuk penalaran multi-tahap dan workflow agen
- kesiapan untuk laptop yang dapat menjalankan model secara lokal hanya dengan 16GB VRAM atau memori terpadu
- lisensi Apache 2.0 dan dukungan ekosistem pengembang
- pengurangan latensi melalui Multi-Token Prediction(MTP) drafters
Cara kerja pemrosesan multimodal tanpa encoder
- Model multimodal konvensional biasanya mengubah gambar dan audio dengan encoder terpisah, lalu meneruskan representasi tersebut ke model bahasa
- Gemma 4 12B dilatih untuk mengintegrasikan input audio dan visual secara langsung agar terhindar dari peningkatan latensi dan penggunaan memori yang disebabkan encoder terpisah
- Dalam pemrosesan visual, encoder visi Gemma 4 diganti dengan modul embedding ringan yang terdiri dari satu perkalian matriks, positional embedding, dan normalisasi, sehingga backbone LLM menangani pemrosesan visual
- Dalam pemrosesan audio, encoder audio dihapus sepenuhnya dan sinyal audio mentah diproyeksikan ke ruang dimensi yang sama dengan token teks
- Penjelasan arsitektur yang lebih rinci untuk pengembang dapat dilihat di Gemma 4 12B Developer Guide
Jalur untuk mulai menggunakan
- Dapat diuji hanya dengan beberapa klik di LM Studio, Ollama, Google AI Edge Gallery App, aplikasi Google AI Edge Eloquent, dan LiteRT-LM CLI
- Checkpoint pretraining dan instruction-tuned dapat diunduh dari Hugging Face dan Kaggle
- Untuk integrasi dan pelatihan, dapat menggunakan developer documentation dan quick start notebook
- Pipeline inferensi lokal dapat diimplementasikan dengan Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, dan fine-tuning yang efisien dapat dilakukan dengan Unsloth
- Skills Repository resmi adalah pustaka skill yang dirancang agar agen dapat dibangun dengan kemampuan Gemma terbaru
- Endpoint produksi dapat dideploy di Google Cloud melalui Gemini Enterprise Agent Platform Model Garden, Cloud Run, dan GKE
3 komentar
Ini bukan sesuatu yang baru dirilis, jadi kenapa dibahas sekarang?
Sebelumnya hanya ada model e serta 26b dan 31b, dan model Gemma 4 12b baru dirilis kali ini.
Pendapat Hacker News
Hasilnya lumayan, tetapi saya beberapa kali harus memperbaiki secara manual kesalahan sintaks yang aneh dan sepele, seperti menambahkan satu tanda kurung penutup ekstra atau mencoba memisahkan definisi fungsi dengan koma
Dengan mempertimbangkan petunjuk ini, untuk model coding lokal performanya cukup baik, dan jika hanya melihat outputnya kira-kira mirip GPT-4.1 yang dirilis 14 bulan lalu: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
Pada kartu konsumen dengan VRAM 12GB, model ini menghasilkan 5 token/detik dalam GGUF 4-bit, dan meski lambat untuk coding interaktif, model ini cukup berguna
Menarik bahwa dalam waktu sedikit lebih dari 1 tahun, performa coding yang dianggap setara GPT-4.1 hampir bisa dikejar oleh model 12 miliar parameter pada benchmark tertentu
Daftar berbagai model yang diuji: https://senko.net/vibecode-bench/
Performa coding umum kemungkinan lebih rendah daripada model kecil lain seperti Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B, dan gpt-oss-20b
Pada laptop 16GB, Qwen 3.5 9B jelas yang terkuat, dan model coding kecil papan atas adalah Gemma 4 31B, tetapi karena dense, untuk memakai seluruh konteksnya dibutuhkan sekitar 48GB unified memory
Kecepatan itu kurang lebih sesuai dengan angka saat model sebesar itu dijalankan pada bandwidth RAM DDR4 dalam 4-bit, dan jika memakai GPU Nvidia konsumen 12GB seperti RTX 2080 atau RTX 3060, backend CUDA llama.cpp seharusnya bisa menghasilkan lebih dari 20 token/detik
Penjelasan “mengganti vision encoder Gemma 4 dengan modul embedding ringan yang terdiri dari satu perkalian matriks, positional embedding, dan normalisasi” secara teknis tetap merupakan encoding, jadi tampaknya maksudnya adalah tidak memakai model khusus seperti SigLIP
Dalam panduan pengembang dijelaskan lagi sebagai layer 35M, dan saya penasaran apakah itu cukup kokoh: https://developers.googleblog.com/gemma-4-12b-the-developer-...
Pernyataan “bisa dijalankan secara lokal pada laptop konsumen dengan RAM 16GB” tampaknya mengasumsikan kuantisasi, dan jika mempertimbangkan penurunan kualitas, itu bisa agak menyesatkan
FAIR sudah melakukannya 2 tahun lalu: https://arxiv.org/abs/2405.09818
Sejak saat itu saya menunggu model seperti ini dirilis secara terbuka, dan hal yang menjengkelkan adalah Chameleon bahkan bisa menghasilkan output multimodal dengan prinsip yang sama, sedangkan model ini hanya menerima input
Saya penasaran bagaimana pretraining-nya dilakukan tanpa output multimodal, dan saya juga tidak tahu apakah dukungan output gambar memang tidak ada atau sengaja dipotong
Ada cukup banyak orang yang punya Mac 16GB, terutama jurnalis, dan siapa pun bisa mengunduh aplikasinya, memasang modelnya, lalu langsung mencobanya
Rasanya para jurnalis sekarang perlu mulai mengajukan pertanyaan tentang prospek pendapatan konsumen OpenAI
Saya cukup skeptis terhadap AI, tetapi demi menjadi skeptis yang benar-benar paham, saya mencoba sedikit pekerjaan agen dan pembuatan CAD-to-image dengan model lokal, dan saya cukup menyukai model Gemma 26B
Saya memakainya untuk mempelajari dasar-dasarnya dan membiasakan diri dengan OpenCode tanpa menciptakan ketergantungan pada cloud, dan model ini juga cukup baik dalam menulis kode serta membantu saya belajar dengan kecepatan yang saya inginkan
Jika model 12B ini bahkan hanya mendekati setengah dari promosi yang diklaim, setidaknya dalam jangka pendek itu menimbulkan pertanyaan atas model bisnis cloud yang menyasar konsumen
Tidak jelas apakah aplikasi ini memakai MTP drafter, dan saya belum bisa menjalankannya langsung di Gemma, tetapi dukungan MTP bawaan Qwen 3.6 di LM Studio sangat bagus
Sebelum terlalu mempermasalahkan kuantisasi, sebaiknya lihat dulu seberapa bagus performa model dasarnya
Menakjubkan tapi sekaligus tidak mengejutkan bahwa mereka terus mengembangkan efisiensi seperti ini. Seperti kemajuan silikon dan arsitektur CPU, semuanya terus diperkecil sambil menjadi lebih kuat, dan AI juga tampaknya akan menjadi 100 kali lebih efisien seiring waktu
Suatu hari nanti tentu akan ada batasnya, tetapi 30 tahun ke depan mungkin akan lebih maju daripada 30 tahun terakhir, dan kita bisa saja hidup di dunia futuristis ala Blade Runner, di mana penyuntingan gen memperbaiki sel yang menua dan organ, serta menyembuhkan kanker
Setelah masa hidup kita, sepertinya orang-orang akan hidup sambil mempertahankan mobilitas secara stabil hingga usia 125 tahun, dan pada akhirnya kita bahkan akan memikirkan umur 1000 tahun.
Kalau melihat 30 tahun ke belakang dan 30 tahun ke depan, rasanya perubahan akan sangat tidak masuk akal. Semoga Tuhan menjaga kita
Saat ini jelas merupakan masa yang menarik, tetapi dari sudut pandang kemajuan mutakhir, masih banyak buah yang tergantung rendah yang bisa dipetik.
Hanya saja, ada batas bawah pada “pengetahuan” yang bisa dimuat dalam sejumlah kecil parameter.
Rasanya masa-masa awal radio, penerbangan, bahkan mikrokomputer juga mungkin seperti ini
Saya memilih jalan yang menempatkan optimasi umur di atas karier atau hobi. Saya ingin melihat masa depan, dan arus AI ini benar-benar menarik
Tidak juga.
Model besar masih jauh lebih unggul, dan bahkan Gemma 31B secara keseluruhan lebih baik daripada 12B, jadi jangan salah mengira bahwa ini sudah mendekati model besar.
Jelas masih ada ruang optimasi, tetapi untuk tugas yang kompleks, demi akurasi dibutuhkan gradien kecil yang nyata dan terlihat, yang bisa tertangkap saat pelatihan dan diikuti saat inferensi.
Misalnya, kalau diberi pertanyaan coding sambil diinstruksikan untuk tidak menulis kode, Gemma masih akan menulis kode, tetapi Gemini atau Claude menangkap nuansa itu dan mengikuti instruksi dengan lebih baik
Saya penasaran alasan bisnis Google merilis model terbuka. Saya berterima kasih atas keterbukaan seperti ini, tetapi sebagai perusahaan profit saya ingin memahami bagaimana ini masuk ke gambaran besarnya.
Rasanya seperti membantu pesaing berdiri di atas teknologi baru yang mereka kembangkan sendiri.
Saya penasaran apakah ini sekadar niat baik atau pemasaran, atau ada strategi yang saya lewatkan
Jika inferensi menjadi cukup populer dan bernilai sehingga perusahaan-perusahaan itu menghasilkan laba miliaran dolar, mereka bisa memakai laba itu untuk membangun produk dan platform pengganti yang memutus hubungan antara Google dan pelanggannya.
Google sudah memiliki bisnis berskala terbesar di dunia dengan margin kotor 80%, dan semua orang menginginkan sebagian darinya.
Dengan menyediakan inferensi frontier mendekati biaya pokok, lalu merilis model di bawah frontier sebagai open source untuk mengkomoditisasi model, akan menjadi sulit bagi lab frontier untuk terus memperoleh margin kotor tinggi dari inferensi.
Ini adalah langkah strategis
Bahkan sekarang perusahaan saya juga all-in pada berbagai produk platform, dan Microsoft kemarin juga mengatakan targetnya adalah “Unmetered intelligence”.
Banyak hal dimungkinkan oleh model lokal kecil, dan hal-hal itu menjadi bagian dari stack yang menghasilkan pendapatan di lapisan lain
Toh pada akhirnya seseorang akan mengekstrak bobotnya, jadi lebih mudah untuk langsung merilisnya sebagai open source dan meresmikannya
Semakin tinggi adopsi AI, semakin mereka ikut naik, dan semakin menguntungkan jika orang memilih solusi Google.
Setiap token yang dikirim ke model Google, gratis maupun berbayar, menjadi tekanan yang memaksa pesaing menghabiskan banyak uang untuk tetap mutakhir
Pertanyaannya adalah apakah modelnya akan dirilis, atau hanya dipakai untuk litbang murni.
Tempat lain juga sudah merilis model dengan kualitas serupa, jadi bergabung dengan arus itu rasanya tidak seperti menembak kaki sendiri.
Kanibalisasi tambahan praktis mendekati nol, dan keuntungan reputasinya kemungkinan cukup sepadan
Pemrosesan gambar sangat buruk. Saya mencoba berbagai tes dengan Qwen 3.5 0.8B, dan Qwen yang ukurannya hanya 7% menang setiap kali, sementara Gemma sering benar-benar salah.
Saya bahkan memberi gambar sederhana bertuliskan “This is a test”, tetapi ia gagal setelah berpikir selama 6 menit untuk menganalisisnya, sedangkan Qwen 3.5 0.8B menjawab dengan yakin dalam waktu kurang dari 1 detik.
Bisa jadi kuantisasi Q6 yang saya dapat rusak, atau masalah LM Studio, tetapi bagaimanapun juga performa 0.8B itu mengejutkan jika dibandingkan
Pada model Gemma3 juga sering ada kasus menolak mendeskripsikan gambar dengan alasan ada eksposur atau adegan seksual, dan saya tidak paham makna perilaku itu
Terlepas dari perubahan arsitektur, ini tampak seperti jawaban atas alasan mengapa jajaran model pra-pelatihan Gemma4 anehnya kosong di antara 4B dan 26B.
Model yang muat nyaman di VRAM 16GB sambil tetap menyisakan ruang konteks adalah peningkatan yang disambut baik
Di luar multimedia, saya penasaran seberapa jauh ini lebih baik dibanding model 1,5 bit berbasis qwen2.5 milik prismml
Saya penasaran dengan kasus penggunaan model kecil seperti ini. Adakah orang yang benar-benar memakainya sehari-hari dan bisa berbagi pengalaman nyata?
Misalnya memindahkan dokumen hasil scan ke teks berformat, caption/deskripsi gambar dan klasifikasi kecocokan objek (termasuk pencegahan spam), serta mencocokkan dokumen dengan halaman Wikipedia terkait untuk diberi tag.
Saya tidak memakainya seperti model frontier; saya memecah setiap prompt menjadi mikro-tugas dengan satu tujuan yang jelas.
Saya juga banyak memakai glue code agar alur keseluruhan berjalan, dan tugas-tugas seperti ini sebenarnya sudah saya lakukan sejak sebelum ada LLM.
Berkat LLM, saya bisa mengurangi kode yang rumit dan menambahkan model untuk hasil yang lebih baik.
Alasan memakai model lokal adalah biaya dan kontrol. Saya sudah punya workstation dan GPU, jadi biaya operasionalnya hanya listrik.
Saya juga pernah memakai model tertutup milik OpenAI dan Google, tetapi pernah terguncang ketika model yang diandalkan alat saya dipensiunkan. Kalau bobotnya disimpan lokal, kekhawatiran seperti itu tidak ada
Belum lama ini saya juga melihat aplikasi kecil yang melihat screenshot lalu mengganti nama file berdasarkan isi file.
Contoh-contoh kecil seperti ini banyak, dan untuk banyak kasus penggunaan sama sekali tidak dibutuhkan model frontier
Saya sudah memakai Gemma untuk meninjau dan mengklasifikasikan tulisan online selama beberapa tahun. Saya menggunakannya pada sekitar 5 juta kata yang saya tulis di forum proyek open source yang saya ikuti, HN, Reddit, dan lain-lain, dan karena itu tulisan saya sendiri, saya juga bereksperimen dengan pelatihan LoRA tanpa kekhawatiran etika soal sumber data
Saat ini saya memakainya untuk pencarian web dan ekstraksi data pada industri tertentu
Model ini cukup pintar untuk menemukan bisnis di industri tersebut di kota tertentu, membaca situs webnya, mengekstrak alamat dan nomor telepon, serta melakukan deduplikasi dan verifikasi silang dengan sumber lain
Gemma 4 memberikan hasil yang lebih baik, atau setidaknya penilaian yang lebih bernuansa, dibanding Gemini 2.5 Flash, dan Gemini 3.5 Flash yang baru memang sangat bagus tetapi harganya tidak realistis
Jika Anda tidak membutuhkan performa yang sangat cepat, Gemma 4 yang di-host sendiri menang dalam banyak tugas
Qwen 3.6 27B juga sangat mengejutkan bagusnya dalam menemukan bug keamanan dibanding ukurannya. Model ini mengalahkan banyak model yang lebih besar dan mendekati Gemini Pro 3.1, tetapi Gemini 3.5 Flash ternyata jelas lebih baik
Biayanya hanya listrik, dan listrik saya murah serta 100% terbarukan, jadi bisa dipakai lebih luas daripada model berbayar berbasis hosting
Meski begitu, pilihan finansial yang masuk akal saat ini masih membeli token dari penyedia yang menjualnya semurah subsidi
Daripada membeli hardware untuk menjalankan model di atas 30GB, saat ini lebih menguntungkan memakai model terbaik dengan harga sangat diskon melalui langganan 100 dolar seperti Claude atau Codex
Jika Anda butuh API untuk otomatisasi, DeepSeek/MiMo harganya satu atau dua digit orde lebih murah daripada model terbaik Anthropic atau OpenAI
Saya menghabiskan sekitar 4000 dolar untuk dua mesin inferensi, dan dengan uang itu sebenarnya saya bisa membeli token untuk model kecil seperti ini selama beberapa tahun
Namun saya memang suka mengutak-atik hardware, jadi itu sendiri sudah menjadi kepuasan, dan kalau ada sebagian biaya yang kembali itu bonus
Kalau para penyedia besar berhenti membakar uang lewat token bersubsidi dan mulai menagih harga sebenarnya, hitung-hitungan ini bisa berubah, dan mungkin saya akan bersyukur sudah membeli peralatan sebelum harga RAM naik 2~3 kali lipat
Jika Anda tidak berniat mempelajari teknologinya atau bereksperimen langsung dengan pelatihan, dalam kebanyakan kasus sepertinya lebih baik tidak mencoba menjalankannya secara lokal
Jika Anda punya ide yang sangat spesifik untuk penggunaan model lokal, Anda bisa membuatnya bekerja dengan baik bahkan tanpa GPU atau NPU
Tapi cara pakainya harus dibatasi secara ekstrem. Model seperti ini tidak bagus sebagai chatbot serbaguna, dan meskipun saya menyukai local LLM, untuk kebutuhan itu saya tetap akan memilih model hosted terbaru
Kalau suatu tugas cukup mudah hingga bisa saya serahkan ke Sonnet, saya juga menyerahkannya ke Gemma 4, dan hasilnya sangat baik
Jauh lebih sering saya terkejut secara positif daripada kecewa secara negatif
Tidak jarang juga saya menemui situasi ketika Gemma 4 gagal lalu saya beralih ke Opus 4.7, tetapi Opus pun tetap gagal
Ini pembaruan yang cukup bagus. Tapi video demonya agak lucu
Ketika penguji meminta rilisnya diubah menjadi poin-poin, model menanganinya dengan baik
Lalu ketika diminta membuat draf email dari isi itu, tanpa diminta model malah mengubah poin-poin tadi menjadi paragraf dan membatalkan hal bagus yang baru saja dilakukannya
Saya jadi bertanya-tanya apakah ada semacam etika bahwa email tidak boleh berisi bullet point
Saya cepat-cepat menyebarkan benchmark terkait bahasa Jerman untuk mengeceknya. Pada hasil khusus bahasa Jerman CohereLabs/include-base-44, Gemma 4 12B ada di kisaran 0.618
Gemma 4 26B (A4B MoE) mencatat 0.647, Qwen 3 14B 0.621, Gemma 4 12B 0.618, Ministral 14B 2512 0.604, dan Gemma 3 12B 0.547
Selisih antara Qwen 3 14B dan Gemma 4 12B masih berada dalam rentang variasi acak, dan pada pengulangan tertentu bahkan pernah keluar skor yang persis sama
Langkah berikutnya, Gemma 4 31B, mencatat 0.676 pada benchmark ini, dan Qwen 3 14B dengan reasoning diaktifkan juga menghasilkan 0.676
Besok saya berencana menjalankan benchmark anti-cheating juga untuk melihat apakah Qwen masih unggul