- model AI multimodal canggih untuk menangani tugas kompleks, dengan tujuan pemecahan masalah yang melampaui jawaban sederhana
- Mencatat skor validasi 77.1% pada benchmark ARC-AGI-2, mencapai lebih dari dua kali performa penalaran dibanding 3 Pro sebelumnya
- Menunjukkan kemampuan penalaran yang lebih baik pada tugas tingkat tinggi seperti integrasi data, penjelasan visual, dan coding kreatif
- Menangani beragam bentuk input seperti teks, audio, gambar, video, dan repositori kode, serta mendukung hingga konteks 1 juta token dan output 64K token
- Melalui preview kali ini, Google sedang memverifikasi peningkatan workflow agentic dan persiapan menuju ketersediaan umum di masa mendatang
Ringkasan Gemini 3.1 Pro
- Gemini 3.1 Pro adalah model AI multimodal canggih untuk menangani tugas kompleks, dengan tujuan pemecahan masalah yang melampaui jawaban sederhana
- Google menyebutnya sebagai peningkatan kecerdasan inti yang memungkinkan capaian Gemini 3 Deep Think
- Menangani input multimodal seperti teks, audio, gambar, video, dan repositori kode
- Mendukung context window hingga 1 juta token dan output 64K token
- Versi ini sedang didistribusikan secara bertahap ke produk konsumen, developer, dan enterprise
- Jalur distribusinya adalah sebagai berikut
Performa dan benchmark
- Gemini 3.1 Pro dioptimalkan untuk pemecahan masalah kompleks melalui peningkatan yang berfokus pada kemampuan penalaran (reasoning)
- Mencatat skor validasi 77.1% pada benchmark ARC-AGI-2, peningkatan performa lebih dari dua kali lipat dibanding 3 Pro sebelumnya
- Hasil perbandingan performa utama (dibanding Gemini 3 Pro):
- ARC-AGI-2: 77.1% (vs 31.1%)
- GPQA Diamond: 94.3% (vs 91.9%)
- Terminal-Bench 2.0: 68.5% (vs 56.9%)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: 85.9% (vs 59.2%)
- Benchmark ini mengevaluasi kemampuan model dalam menyelesaikan pola logika yang sepenuhnya baru
- Google mendefinisikannya sebagai “model dasar yang lebih cerdas dan lebih mumpuni”, dan menempatkannya sebagai fondasi untuk pemecahan masalah kompleks
Contoh penggunaan nyata
- Gemini 3.1 Pro menunjukkan berbagai kemungkinan aplikasi dengan menerapkan penalaran tingkat lanjut dalam bentuk yang praktis
- Pembuatan penjelasan visual: kemampuan untuk menjelaskan topik kompleks secara jelas dan visual
- Integrasi data: menggabungkan berbagai data menjadi satu tampilan terpadu
- Implementasi proyek kreatif: mewujudkan ide artistik dan desain ke dalam kode
- Contoh spesifik
- Animasi berbasis kode: menghasilkan animasi SVG untuk website dari prompt teks, meminimalkan ukuran file tanpa kehilangan resolusi
- Integrasi sistem kompleks: membangun dashboard yang memvisualisasikan orbit Stasiun Luar Angkasa Internasional (ISS) secara real-time
- Desain interaktif: membuat kode simulasi kawanan starling 3D untuk menghadirkan pelacakan tangan dan antarmuka yang responsif terhadap musik
- Coding kreatif: merancang website portofolio modern yang mencerminkan nuansa sastra
Wuthering Heights
Distribusi dan akses
- Gemini 3.1 Pro dirilis dalam bentuk preview untuk mengumpulkan umpan balik pengguna
- Pengguna paket Google AI Pro dan Ultra dapat menikmati batas penggunaan yang lebih tinggi di aplikasi Gemini
- Di NotebookLM, tersedia secara eksklusif untuk pengguna Pro dan Ultra
- Developer dan enterprise dapat mengaksesnya melalui AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio
Rencana ke depan
- Setelah peluncuran Gemini 3 Pro, Google mempertahankan kecepatan peningkatan yang tinggi, dan melalui preview 3.1 Pro ini mendorong verifikasi pembaruan serta perluasan workflow agentic
- Ketersediaan umum (GA) akan dilakukan setelah verifikasi selesai, dan Google menyatakan bahwa mereka “menantikan apa yang akan dibuat dan ditemukan pengguna dengan model ini”
4 komentar
Semoga kemampuan coding-nya segera bisa menyamai Claude Opus.
Betul. Pada hari pertama model preview 3.0 naik ke CLI dan saya memakainya, saya sangat suka sampai menulis kesan-kesan di blog juga, tapi lalu menurun drastis ... Karena itu sekarang saya lebih banyak memakai Codex dan Claude Code. Tapi Claude juga agak... Saya mau lihat dulu apakah 4.6 Opus atau Sonnet bagus, kalau tidak mungkin untuk coding pakai Codex, dan untuk pekerjaan lain saya mantapkan Gemini..
Komentar Hacker News
Gemini 3.1 Pro benar-benar sangat dinantikan
Sejauh ini saya hampir selalu lebih condong ke Claude, dan Claude Opus sangat unggul khususnya untuk coding
Gemini juga hampir hebat, tapi masih belum setara Claude
Saya bergantian berlangganan ChatGPT Plus ↔ Gemini Pro ↔ Claude tiap bulan agar tidak melewatkan keunggulan masing-masing model
Sebagai mantan Googler, saya berharap Gemini 3.1 Pro lebih baik daripada 3.0
Tapi untuk pengembangan, Gemini adalah model yang paling bikin frustrasi
Claude Opus di VS Code Copilot menyeimbangkan alur berpikir dan respons dengan baik, sedangkan Gemini hanya memakai thinking token tanpa menjelaskan hasilnya
Ia sering terjebak dalam loop, buruk dalam penggunaan tool, dan mengubah file yang salah
Jadi saya sempat memakai strategi “perencanaan dengan Gemini, eksekusi dengan Claude”, tapi akhirnya hanya memakai Claude
Anthropic tampak menyempurnakan model berdasarkan proyek nyata, sementara Google terkesan kurang menguji pemakaian di dunia nyata
Ia mengira int8 sebagai float, atau lupa apakah sesuatu sudah dinormalisasi
Rasanya seperti berbicara dengan orang yang daya ingatnya lemah
Meski begitu, ia cukup membantu untuk diskusi desain arsitektur
Itu benar-benar puncak inefisiensi
Claude terasa seperti mempelajari ‘proses coding’ itu sendiri, dan Anthropic tampaknya memasukkan umpan balik pengguna ke dalam tuning
Google tampak mengejar model serbaguna, sehingga terkesan ‘bisa sedikit dari segalanya tapi tidak benar-benar sempurna dalam apa pun’
Claude atau Codex menjelaskan pendekatan mereka terhadap masalah, sedangkan Gemini langsung mengeksekusi
Ia mengabaikan permintaan revisi dan mengotori workspace
Meski bisa dipakai gratis, saya hampir tidak pernah memakainya
Anthropic tampaknya sejak awal menyadari bahwa ‘pengguna harus bisa memegang kendali’
OpenAI sudah menyusul hingga level Claude, tapi Google masih jauh tertinggal
Orang-orang meremehkan efisiensi biaya Google
Harganya setengah dari Opus, tapi performanya tetap cukup bagus
Menurut metrik Artificial Analysis, 3.1 40% lebih murah dan 30% lebih cepat daripada Opus
Untuk pengembangan, memakai model terbaik tetap sepadan bahkan jika biayanya 300 dolar per bulan
Untuk AI konsumen, hitungannya akan berbeda
Namun jika performanya bisa menyamai, daya saing harga tetap menarik
Tapi jika performanya mirip, penghematan biaya 50% adalah keuntungan besar
Secara pribadi, model ini bekerja baik untuk pekerjaan maupun coding hobi saya
Meski begitu, saya heran karena komunitas banyak memberi penilaian buruk
Model-model belakangan ini terlalu kuat
Sekarang kita bisa membuat software utuh dalam waktu jauh lebih singkat daripada dulu
Tapi perbedaan perilaku antarversi terlalu besar, sehingga rasanya seperti mengelola tim baru setiap bulan
Model juga bisa diganti atau berubah secara halus tanpa pemberitahuan, sehingga terasa seperti fondasi yang tidak stabil
Bisa dilihat di isu sqlite-chronicle
Setelah itu, ia menyelesaikan beberapa kebuntuan di berbagai proyek
Meski begitu, mereka sudah cukup untuk mencari ide dan memulai codebase
Bahkan untuk kode yang sama, model yang membuatnya tampak memiliki semacam konsistensi diri sehingga lebih mudah menanganinya lagi
Meski begitu, ini tetap teknologi yang luar biasa
Harga Gemini 3.1 tidak berubah
Input $2/M, output $12/M, seperti tertulis di dokumentasi resmi
Knowledge cutoff-nya Januari 2025, dan mode “medium thinking” baru ditambahkan
Selisih harga dengan Opus 4.6 yang $5/$25 cukup besar
Pengaturan aturan IAM, pembayaran, sampai memahami nama produk membuat orang tersendat
OpenAI dan Anthropic jauh lebih sederhana
Meski begitu, biaya bulanannya mirip
Anthropic unggul lewat optimisasi full-stack
Belum ada model seperti Opus 4.6 yang tetap cepat dan cerdas meski thinking dimatikan
Gemini 3 masih dalam status preview, dan 2.5 akan segera dihentikan
Melihat jadwal penghentian resmi, beberapa model dihentikan bahkan tanpa model pengganti
Jadi saya bertanya-tanya kapan Google benar-benar akan merilis model production yang sesungguhnya
Saya punya sistem yang benar-benar sedang berjalan, jadi ini terasa sangat mengkhawatirkan
Kalau melihat Killed by Google, kita tahu betapa hampanya pernyataan itu
Jika 3.0 masih preview, 2.5 kemungkinan akan dipertahankan setidaknya selama 1 tahun
Dokumentasi resmi juga menyebutkan bahwa “tanggal penghentian pasti akan diberi tahu setelah pengumuman sebelumnya”
Gemini menyelesaikan masalah race condition sinkronisasi UI dan data sekaligus
Bahkan Opus 4.6 baru berhasil setelah tiga percobaan, jadi itu cukup mengejutkan
Sekarang jawabannya kurang bertele-tele dan langsung ke inti
Ke depan, saya mungkin akan memakai strategi Gemini untuk R&D, lalu Opus/Sonnet 4.6 untuk penyelesaian akhir
Jika memakai wrapper terpadu yang mendukung banyak model, beban memilih model jadi berkurang
Pada akhirnya yang penting adalah “model yang paling cocok untuk masalah saya”
Gemini menjawab “pertanyaan tempat cuci mobil” dengan sempurna
Jawabannya logis, seperti “kalau berjalan kaki, tidak ada mobil untuk dicuci, jadi harus pergi dengan mengendarai mobil”
Gemini menjelaskan secara logis bahwa “Anda harus membawa gajah itu”, lengkap dengan alasan detail
Kemampuan penalarannya cukup mengesankan
Hanya saja, komentar Gemini tentang “prakiraan cuci mobil saat hari hujan” terasa lucu tapi juga terlalu percaya diri
Dalam tes “SVG pelikan mengendarai sepeda”, Gemini memberi hasil yang bagus
Lihat tautan hasil
Mungkin kemampuan generasi visual meningkat berkat kenaikan benchmark ARC-AGI
Benchmark itu sendiri jadi kehilangan makna, dan sekarang lebih terasa sebagai urusan selera
Kita butuh benchmark ‘vibe check’ yang baru
Perubahan yang menarik
Pada akhirnya, tangan desainer manusia masih dibutuhkan
Mungkin ini hasil dari Google yang mengoptimalkan khusus untuk SVG
SVG pelikan di blog Simon Willison cukup bagus, tapi butuh lebih dari 5 menit untuk dihasilkan
Ini tampaknya masalah performa di awal peluncuran
Kita cuma ingin pelikan dan sepeda, tapi ia malah menambahkan awan, matahari, dan topi
Dalam coding juga sama, ia tidak berhenti melakukan refactor yang tidak diminta dan menambahkan komentar
Tweet Jeff Dean juga mengisyaratkan hal itu
Padahal pemahaman spasial lain lemah, tapi untuk membuat bentuk yang presisi justru sangat unggul
Jadi ini mungkin bukan peningkatan kemampuan umum, melainkan hasil dari pelatihan eksplisit
Mungkin sebentar lagi performanya akan diam-diam di-nerf; seberapa besar nerf-nya itulah yang kemungkinan paling penting. (Memang kebanyakan model AI terasa makin lama makin bodoh, tapi Google terasa jauh lebih parah soal ini.)
Saya ingat 3 Pro juga sempat bagus tepat setelah pertama kali rilis, tetapi sekitar seminggu kemudian tiba-tiba jadi bodoh, dan akhirnya saya berhenti memakainya.