Gemma 4 12B: model multimodal tanpa encoder terintegrasi

(blog.google)

10 poin oleh GN⁺ 2026-06-04 | 5 komentar | Bagikan ke WhatsApp

Gemma 4 12B adalah model berukuran menengah yang dirancang untuk menjalankan kecerdasan multimodal bergaya agen di laptop, mengisi celah antara E4B yang ramah edge dan 26B MoE yang lebih canggih
Dengan arsitektur terpadu tanpa encoder, model ini memilih pendekatan mengalirkan input gambar dan audio langsung ke backbone LLM tanpa encoder multimodal terpisah untuk mengurangi latensi dan penggunaan memori
Performa benchmark standarnya mendekati model 26B MoE yang lebih besar, sementara penggunaan memori totalnya kurang dari setengahnya, sehingga dapat dijalankan secara lokal di laptop konsumen dengan RAM 16GB atau lingkungan VRAM/memori terpadu
Gemma 4 12B adalah model berukuran menengah pertama di keluarga Gemma yang mendukung input audio native, dan menargetkan pengurangan latensi dengan Multi-Token Prediction drafters
Model Gemma 4 telah melampaui 150 juta unduhan, dan Gemma 4 12B memperluas cakupan pengembangan agen multimodal lokal dengan lisensi Apache 2.0 serta dukungan untuk alat pengembang utama dan jalur deployment

Fitur utama

Gemma 4 12B dirancang untuk menghadirkan kecerdasan multimodal berperforma tinggi langsung ke laptop, menggabungkan efisiensi yang mengutamakan mobile dengan penalaran tingkat lanjut
Model ini berada di antara E4B yang ramah edge dan Mixture of Experts(MoE) 26B yang lebih canggih, menghadirkan kemampuan kuat dalam jejak memori yang lebih kecil
Fitur utamanya meliputi
- arsitektur terpadu yang mengirim input visual dan audio langsung ke backbone LLM tanpa encoder multimodal
- performa benchmark yang mendekati model 26B serta dukungan untuk penalaran multi-tahap dan workflow agen
- kesiapan untuk laptop yang dapat menjalankan model secara lokal hanya dengan 16GB VRAM atau memori terpadu
- lisensi Apache 2.0 dan dukungan ekosistem pengembang
- pengurangan latensi melalui Multi-Token Prediction(MTP) drafters

Cara kerja pemrosesan multimodal tanpa encoder

Model multimodal konvensional biasanya mengubah gambar dan audio dengan encoder terpisah, lalu meneruskan representasi tersebut ke model bahasa
Gemma 4 12B dilatih untuk mengintegrasikan input audio dan visual secara langsung agar terhindar dari peningkatan latensi dan penggunaan memori yang disebabkan encoder terpisah
Dalam pemrosesan visual, encoder visi Gemma 4 diganti dengan modul embedding ringan yang terdiri dari satu perkalian matriks, positional embedding, dan normalisasi, sehingga backbone LLM menangani pemrosesan visual
Dalam pemrosesan audio, encoder audio dihapus sepenuhnya dan sinyal audio mentah diproyeksikan ke ruang dimensi yang sama dengan token teks
Penjelasan arsitektur yang lebih rinci untuk pengembang dapat dilihat di Gemma 4 12B Developer Guide

Jalur untuk mulai menggunakan

Dapat diuji hanya dengan beberapa klik di LM Studio, Ollama, Google AI Edge Gallery App, aplikasi Google AI Edge Eloquent, dan LiteRT-LM CLI
Checkpoint pretraining dan instruction-tuned dapat diunduh dari Hugging Face dan Kaggle
Untuk integrasi dan pelatihan, dapat menggunakan developer documentation dan quick start notebook
Pipeline inferensi lokal dapat diimplementasikan dengan Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, dan fine-tuning yang efisien dapat dilakukan dengan Unsloth
Skills Repository resmi adalah pustaka skill yang dirancang agar agen dapat dibangun dengan kemampuan Gemma terbaru
Endpoint produksi dapat dideploy di Google Cloud melalui Gemini Enterprise Agent Platform Model Garden, Cloud Run, dan GKE

5 komentar

hmmhmmhm 2026-06-04

Dibandingkan gemma4 26b a4b, kecepatannya memang agak kurang memuaskan ya, yang ini juga.... apakah a4b bisa keluar?

loblue 2026-06-04

Sepertinya saya harus mencoba menjalankannya di MacBook M1 saya dengan RAM 32GB. Kalau 12B, sepertinya akan cukup oke.

kaydash 2026-06-04

Ini bukan sesuatu yang baru dirilis, jadi kenapa dibahas sekarang?

winterjung 2026-06-04

Sebelumnya hanya ada model e serta 26b dan 31b, dan model Gemma 4 12b baru dirilis kali ini.

GN⁺ 2026-06-04

Pendapat Hacker News

Saya mencoba menjalankan model kuantisasi Q4 dengan llama.cpp dan memasukkannya ke benchmark vibe coding Minesweeper buatan saya sendiri: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
Hasilnya lumayan, tetapi saya beberapa kali harus memperbaiki secara manual kesalahan sintaks yang aneh dan sepele, seperti menambahkan satu tanda kurung penutup ekstra atau mencoba memisahkan definisi fungsi dengan koma
Dengan mempertimbangkan petunjuk ini, untuk model coding lokal performanya cukup baik, dan jika hanya melihat outputnya kira-kira mirip GPT-4.1 yang dirilis 14 bulan lalu: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
Pada kartu konsumen dengan VRAM 12GB, model ini menghasilkan 5 token/detik dalam GGUF 4-bit, dan meski lambat untuk coding interaktif, model ini cukup berguna
Menarik bahwa dalam waktu sedikit lebih dari 1 tahun, performa coding yang dianggap setara GPT-4.1 hampir bisa dikejar oleh model 12 miliar parameter pada benchmark tertentu
Daftar berbagai model yang diuji: https://senko.net/vibecode-bench/
- Kemungkinan besar ini bukan model yang dilatih untuk coding. Ada input audio dan visi, ukurannya hanya 12B, dan tidak ada penyebutan coding di mana pun dalam pengumumannya
  Performa coding umum kemungkinan lebih rendah daripada model kecil lain seperti Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B, dan gpt-oss-20b
  Pada laptop 16GB, Qwen 3.5 9B jelas yang terkuat, dan model coding kecil papan atas adalah Gemma 4 31B, tetapi karena dense, untuk memakai seluruh konteksnya dibutuhkan sekitar 48GB unified memory
- Jika hanya 5 token/detik pada kartu VRAM 12GB, ini tampaknya memakai mode hybrid yang mencampur CPU dan RAM sistem
  Kecepatan itu kurang lebih sesuai dengan angka saat model sebesar itu dijalankan pada bandwidth RAM DDR4 dalam 4-bit, dan jika memakai GPU Nvidia konsumen 12GB seperti RTX 2080 atau RTX 3060, backend CUDA llama.cpp seharusnya bisa menghasilkan lebih dari 20 token/detik
- Kemenangan terbesar dalam coding tampaknya adalah kemampuan penalaran. Jadi model kecil bisa menyamai performa coding GPT-4.1, tetapi untuk pengetahuan dunia umum, GPT-4.1 yang lebih besar kemungkinan masih unggul
- Saya penasaran apakah masalah sintaks ini bisa diatasi dengan fine-tuning atau penyesuaian parameter lain. Kesalahan seperti itu cukup menjengkelkan
Cerita besar di sini adalah arsitektur tanpa encoder, meski saya masih belum sepenuhnya memahaminya
Penjelasan “mengganti vision encoder Gemma 4 dengan modul embedding ringan yang terdiri dari satu perkalian matriks, positional embedding, dan normalisasi” secara teknis tetap merupakan encoding, jadi tampaknya maksudnya adalah tidak memakai model khusus seperti SigLIP
Dalam panduan pengembang dijelaskan lagi sebagai layer 35M, dan saya penasaran apakah itu cukup kokoh: https://developers.googleblog.com/gemma-4-12b-the-developer-...
Pernyataan “bisa dijalankan secara lokal pada laptop konsumen dengan RAM 16GB” tampaknya mengasumsikan kuantisasi, dan jika mempertimbangkan penurunan kualitas, itu bisa agak menyesatkan
- Di halaman pengembang ada tulisan yang menjelaskan arsitektur tanpa encoder dengan baik: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- Ini pada dasarnya adalah early fusion
  FAIR sudah melakukannya 2 tahun lalu: https://arxiv.org/abs/2405.09818
  Sejak saat itu saya menunggu model seperti ini dirilis secara terbuka, dan hal yang menjengkelkan adalah Chameleon bahkan bisa menghasilkan output multimodal dengan prinsip yang sama, sedangkan model ini hanya menerima input
  Saya penasaran bagaimana pretraining-nya dilakukan tanpa output multimodal, dan saya juga tidak tahu apakah dukungan output gambar memang tidak ada atau sengaja dipotong
- Dalam arti umum, ini tetap “encoding”, tetapi di sini sepertinya yang dimaksud adalah tidak ada jaringan saraf encoder
- Menurut saya cerita besar yang sebenarnya adalah aplikasi Gallery: https://developers.google.com/edge/gallery
  Ada cukup banyak orang yang punya Mac 16GB, terutama jurnalis, dan siapa pun bisa mengunduh aplikasinya, memasang modelnya, lalu langsung mencobanya
  Rasanya para jurnalis sekarang perlu mulai mengajukan pertanyaan tentang prospek pendapatan konsumen OpenAI
  Saya cukup skeptis terhadap AI, tetapi demi menjadi skeptis yang benar-benar paham, saya mencoba sedikit pekerjaan agen dan pembuatan CAD-to-image dengan model lokal, dan saya cukup menyukai model Gemma 26B
  Saya memakainya untuk mempelajari dasar-dasarnya dan membiasakan diri dengan OpenCode tanpa menciptakan ketergantungan pada cloud, dan model ini juga cukup baik dalam menulis kode serta membantu saya belajar dengan kecepatan yang saya inginkan
  Jika model 12B ini bahkan hanya mendekati setengah dari promosi yang diklaim, setidaknya dalam jangka pendek itu menimbulkan pertanyaan atas model bisnis cloud yang menyasar konsumen
  Tidak jelas apakah aplikasi ini memakai MTP drafter, dan saya belum bisa menjalankannya langsung di Gemma, tetapi dukungan MTP bawaan Qwen 3.6 di LM Studio sangat bagus
- Untuk 12B, itu berarti 12GB pada 8-bit/parameter, yang hampir tanpa loss, dan 6GB pada 4-bit/parameter, yang biasanya dianggap “cukup mendekati”
  Sebelum terlalu mempermasalahkan kuantisasi, sebaiknya lihat dulu seberapa bagus performa model dasarnya
Sekarang kita mulai masuk ke permainan loop tertutup. Google tidak membutuhkan pihak lain untuk mempercepat modelnya sendiri, dan ini sangat dekat dengan bisnis intinya
Menakjubkan tapi sekaligus tidak mengejutkan bahwa mereka terus mengembangkan efisiensi seperti ini. Seperti kemajuan silikon dan arsitektur CPU, semuanya terus diperkecil sambil menjadi lebih kuat, dan AI juga tampaknya akan menjadi 100 kali lebih efisien seiring waktu
Suatu hari nanti tentu akan ada batasnya, tetapi 30 tahun ke depan mungkin akan lebih maju daripada 30 tahun terakhir, dan kita bisa saja hidup di dunia futuristis ala Blade Runner, di mana penyuntingan gen memperbaiki sel yang menua dan organ, serta menyembuhkan kanker

Setelah masa hidup kita, sepertinya orang-orang akan hidup sambil mempertahankan mobilitas secara stabil hingga usia 125 tahun, dan pada akhirnya kita bahkan akan memikirkan umur 1000 tahun.
Kalau melihat 30 tahun ke belakang dan 30 tahun ke depan, rasanya perubahan akan sangat tidak masuk akal. Semoga Tuhan menjaga kita

Saat ini jelas merupakan masa yang menarik, tetapi dari sudut pandang kemajuan mutakhir, masih banyak buah yang tergantung rendah yang bisa dipetik.
Hanya saja, ada batas bawah pada “pengetahuan” yang bisa dimuat dalam sejumlah kecil parameter.
Rasanya masa-masa awal radio, penerbangan, bahkan mikrokomputer juga mungkin seperti ini
Saya memilih jalan yang menempatkan optimasi umur di atas karier atau hobi. Saya ingin melihat masa depan, dan arus AI ini benar-benar menarik
Tidak juga.
Model besar masih jauh lebih unggul, dan bahkan Gemma 31B secara keseluruhan lebih baik daripada 12B, jadi jangan salah mengira bahwa ini sudah mendekati model besar.
Jelas masih ada ruang optimasi, tetapi untuk tugas yang kompleks, demi akurasi dibutuhkan gradien kecil yang nyata dan terlihat, yang bisa tertangkap saat pelatihan dan diikuti saat inferensi.
Misalnya, kalau diberi pertanyaan coding sambil diinstruksikan untuk tidak menulis kode, Gemma masih akan menulis kode, tetapi Gemini atau Claude menangkap nuansa itu dan mengikuti instruksi dengan lebih baik
Saya penasaran alasan bisnis Google merilis model terbuka. Saya berterima kasih atas keterbukaan seperti ini, tetapi sebagai perusahaan profit saya ingin memahami bagaimana ini masuk ke gambaran besarnya.
Rasanya seperti membantu pesaing berdiri di atas teknologi baru yang mereka kembangkan sendiri.
Saya penasaran apakah ini sekadar niat baik atau pemasaran, atau ada strategi yang saya lewatkan
- Salah satu alasan besar mengapa lab frontier bisa mendapat margin kotor 80% dari inferensi adalah karena mereka memegang sumber daya langka berupa model frontier.
  Jika inferensi menjadi cukup populer dan bernilai sehingga perusahaan-perusahaan itu menghasilkan laba miliaran dolar, mereka bisa memakai laba itu untuk membangun produk dan platform pengganti yang memutus hubungan antara Google dan pelanggannya.
  Google sudah memiliki bisnis berskala terbesar di dunia dengan margin kotor 80%, dan semua orang menginginkan sebagian darinya.
  Dengan menyediakan inferensi frontier mendekati biaya pokok, lalu merilis model di bawah frontier sebagai open source untuk mengkomoditisasi model, akan menjadi sulit bagi lab frontier untuk terus memperoleh margin kotor tinggi dari inferensi.
  Ini adalah langkah strategis
- Model ini tidak akan menggantikan produk komersial berpendapatan mereka sendiri, tetapi memungkinkan aktivitas pengembangan dan membuka percakapan dengan perusahaan yang memulai dari model ini lalu ingin lebih.
  Bahkan sekarang perusahaan saya juga all-in pada berbagai produk platform, dan Microsoft kemarin juga mengatakan targetnya adalah “Unmetered intelligence”.
  Banyak hal dimungkinkan oleh model lokal kecil, dan hal-hal itu menjadi bagian dari stack yang menghasilkan pendapatan di lapisan lain
- Android dan Chrome membutuhkan fitur AI on-device. Google tidak bisa mengunci bobot ini seperti machine learning sisi server.
  Toh pada akhirnya seseorang akan mengekstrak bobotnya, jadi lebih mudah untuk langsung merilisnya sebagai open source dan meresmikannya
- Google adalah salah satu dari sedikit opsi terintegrasi vertikal di AI. Mereka punya data, model, layanan cloud, silikon tingkat rendah (TPU), pemakaian internal, pemakaian konsumen, pemakaian B2B, dan jaringan distribusi (browser dan mobile).
  Semakin tinggi adopsi AI, semakin mereka ikut naik, dan semakin menguntungkan jika orang memilih solusi Google.
  Setiap token yang dikirim ke model Google, gratis maupun berbayar, menjadi tekanan yang memaksa pesaing menghabiskan banyak uang untuk tetap mutakhir
- Kalau saya adalah lab AI, saya pasti ingin punya tim riset di bidang ini. Di sinilah paling mudah melakukan eksperimen berulang dan menghasilkan perbaikan, lalu nantinya mencerminkannya ke model frontier yang lebih besar.
  Pertanyaannya adalah apakah modelnya akan dirilis, atau hanya dipakai untuk litbang murni.
  Tempat lain juga sudah merilis model dengan kualitas serupa, jadi bergabung dengan arus itu rasanya tidak seperti menembak kaki sendiri.
  Kanibalisasi tambahan praktis mendekati nol, dan keuntungan reputasinya kemungkinan cukup sepadan
Pemrosesan gambar sangat buruk. Saya mencoba berbagai tes dengan Qwen 3.5 0.8B, dan Qwen yang ukurannya hanya 7% menang setiap kali, sementara Gemma sering benar-benar salah.
Saya bahkan memberi gambar sederhana bertuliskan “This is a test”, tetapi ia gagal setelah berpikir selama 6 menit untuk menganalisisnya, sedangkan Qwen 3.5 0.8B menjawab dengan yakin dalam waktu kurang dari 1 detik.
Bisa jadi kuantisasi Q6 yang saya dapat rusak, atau masalah LM Studio, tetapi bagaimanapun juga performa 0.8B itu mengejutkan jika dibandingkan
- Sepertinya Google memasang guardrail yang lebih banyak atau lebih kuat daripada Alibaba, sehingga membingungkan model kecil.
  Pada model Gemma3 juga sering ada kasus menolak mendeskripsikan gambar dengan alasan ada eksposur atau adegan seksual, dan saya tidak paham makna perilaku itu
- Menurut saya model Gemma memang selalu jauh lebih buruk daripada Qwen dalam tugas vision, jadi ini bukan hal baru
Terlepas dari perubahan arsitektur, ini tampak seperti jawaban atas alasan mengapa jajaran model pra-pelatihan Gemma4 anehnya kosong di antara 4B dan 26B.
Model yang muat nyaman di VRAM 16GB sambil tetap menyisakan ruang konteks adalah peningkatan yang disambut baik
Di luar multimedia, saya penasaran seberapa jauh ini lebih baik dibanding model 1,5 bit berbasis qwen2.5 milik prismml
Saya penasaran dengan kasus penggunaan model kecil seperti ini. Adakah orang yang benar-benar memakainya sehari-hari dan bisa berbagi pengalaman nyata?
- Saya menjalankan vLLM di mesin Linux di basement dan terhubung lewat Tailscale, lalu memakai model kecil untuk berbagai tugas.
  Misalnya memindahkan dokumen hasil scan ke teks berformat, caption/deskripsi gambar dan klasifikasi kecocokan objek (termasuk pencegahan spam), serta mencocokkan dokumen dengan halaman Wikipedia terkait untuk diberi tag.
  Saya tidak memakainya seperti model frontier; saya memecah setiap prompt menjadi mikro-tugas dengan satu tujuan yang jelas.
  Saya juga banyak memakai glue code agar alur keseluruhan berjalan, dan tugas-tugas seperti ini sebenarnya sudah saya lakukan sejak sebelum ada LLM.
  Berkat LLM, saya bisa mengurangi kode yang rumit dan menambahkan model untuk hasil yang lebih baik.
  Alasan memakai model lokal adalah biaya dan kontrol. Saya sudah punya workstation dan GPU, jadi biaya operasionalnya hanya listrik.
  Saya juga pernah memakai model tertutup milik OpenAI dan Google, tetapi pernah terguncang ketika model yang diandalkan alat saya dipensiunkan. Kalau bobotnya disimpan lokal, kekhawatiran seperti itu tidak ada
- Di aplikasi dikte buatan saya sendiri, saya memakai model lokal untuk merapikan teks dan memperbaiki tata bahasa. Ini sangat mudah dibuat, dan sekarang sedang diperluas hingga menangkap notulen rapat dan merangkumnya, semuanya diproses on-device.
  Belum lama ini saya juga melihat aplikasi kecil yang melihat screenshot lalu mengganti nama file berdasarkan isi file.
  Contoh-contoh kecil seperti ini banyak, dan untuk banyak kasus penggunaan sama sekali tidak dibutuhkan model frontier
Saya sudah memakai Gemma untuk meninjau dan mengklasifikasikan tulisan online selama beberapa tahun. Saya menggunakannya pada sekitar 5 juta kata yang saya tulis di forum proyek open source yang saya ikuti, HN, Reddit, dan lain-lain, dan karena itu tulisan saya sendiri, saya juga bereksperimen dengan pelatihan LoRA tanpa kekhawatiran etika soal sumber data
Saat ini saya memakainya untuk pencarian web dan ekstraksi data pada industri tertentu
Model ini cukup pintar untuk menemukan bisnis di industri tersebut di kota tertentu, membaca situs webnya, mengekstrak alamat dan nomor telepon, serta melakukan deduplikasi dan verifikasi silang dengan sumber lain
Gemma 4 memberikan hasil yang lebih baik, atau setidaknya penilaian yang lebih bernuansa, dibanding Gemini 2.5 Flash, dan Gemini 3.5 Flash yang baru memang sangat bagus tetapi harganya tidak realistis
Jika Anda tidak membutuhkan performa yang sangat cepat, Gemma 4 yang di-host sendiri menang dalam banyak tugas
Qwen 3.6 27B juga sangat mengejutkan bagusnya dalam menemukan bug keamanan dibanding ukurannya. Model ini mengalahkan banyak model yang lebih besar dan mendekati Gemini Pro 3.1, tetapi Gemini 3.5 Flash ternyata jelas lebih baik
Biayanya hanya listrik, dan listrik saya murah serta 100% terbarukan, jadi bisa dipakai lebih luas daripada model berbayar berbasis hosting
Meski begitu, pilihan finansial yang masuk akal saat ini masih membeli token dari penyedia yang menjualnya semurah subsidi
Daripada membeli hardware untuk menjalankan model di atas 30GB, saat ini lebih menguntungkan memakai model terbaik dengan harga sangat diskon melalui langganan 100 dolar seperti Claude atau Codex
Jika Anda butuh API untuk otomatisasi, DeepSeek/MiMo harganya satu atau dua digit orde lebih murah daripada model terbaik Anthropic atau OpenAI
Saya menghabiskan sekitar 4000 dolar untuk dua mesin inferensi, dan dengan uang itu sebenarnya saya bisa membeli token untuk model kecil seperti ini selama beberapa tahun
Namun saya memang suka mengutak-atik hardware, jadi itu sendiri sudah menjadi kepuasan, dan kalau ada sebagian biaya yang kembali itu bonus
Kalau para penyedia besar berhenti membakar uang lewat token bersubsidi dan mulai menagih harga sebenarnya, hitung-hitungan ini bisa berubah, dan mungkin saya akan bersyukur sudah membeli peralatan sebelum harga RAM naik 2~3 kali lipat
Jika Anda tidak berniat mempelajari teknologinya atau bereksperimen langsung dengan pelatihan, dalam kebanyakan kasus sepertinya lebih baik tidak mencoba menjalankannya secara lokal
- Model kecil punya ceruk yang sangat bagus untuk tugas tertentu. Untuk sisi pemrosesan dokumen di aplikasi desktop yang saya kembangkan, saya memakai model Phi-4 yang sudah di-fine-tune, yang lebih kecil dari model ini dan muat di sekitar 3,5GB RAM, bukan VRAM
  Jika Anda punya ide yang sangat spesifik untuk penggunaan model lokal, Anda bisa membuatnya bekerja dengan baik bahkan tanpa GPU atau NPU
  Tapi cara pakainya harus dibatasi secara ekstrem. Model seperti ini tidak bagus sebagai chatbot serbaguna, dan meskipun saya menyukai local LLM, untuk kebutuhan itu saya tetap akan memilih model hosted terbaru
- Saya tidak tahu soal model ini, tetapi versi 31B tepat di atasnya sedang saya pakai di OpenCode sebagai asisten coding berbasis agen
  Kalau suatu tugas cukup mudah hingga bisa saya serahkan ke Sonnet, saya juga menyerahkannya ke Gemma 4, dan hasilnya sangat baik
  Jauh lebih sering saya terkejut secara positif daripada kecewa secara negatif
  Tidak jarang juga saya menemui situasi ketika Gemma 4 gagal lalu saya beralih ke Opus 4.7, tetapi Opus pun tetap gagal
Ini pembaruan yang cukup bagus. Tapi video demonya agak lucu
Ketika penguji meminta rilisnya diubah menjadi poin-poin, model menanganinya dengan baik
Lalu ketika diminta membuat draf email dari isi itu, tanpa diminta model malah mengubah poin-poin tadi menjadi paragraf dan membatalkan hal bagus yang baru saja dilakukannya
Saya jadi bertanya-tanya apakah ada semacam etika bahwa email tidak boleh berisi bullet point
Saya cepat-cepat menyebarkan benchmark terkait bahasa Jerman untuk mengeceknya. Pada hasil khusus bahasa Jerman CohereLabs/include-base-44, Gemma 4 12B ada di kisaran 0.618
Gemma 4 26B (A4B MoE) mencatat 0.647, Qwen 3 14B 0.621, Gemma 4 12B 0.618, Ministral 14B 2512 0.604, dan Gemma 3 12B 0.547
Selisih antara Qwen 3 14B dan Gemma 4 12B masih berada dalam rentang variasi acak, dan pada pengulangan tertentu bahkan pernah keluar skor yang persis sama
Langkah berikutnya, Gemma 4 31B, mencatat 0.676 pada benchmark ini, dan Qwen 3 14B dengan reasoning diaktifkan juga menghasilkan 0.676
Besok saya berencana menjalankan benchmark anti-cheating juga untuk melihat apakah Qwen masih unggul