Gemini 3.1 Pro

(blog.google)

4 poin oleh GN⁺ 2026-02-20 | 4 komentar | Bagikan ke WhatsApp

model AI multimodal canggih untuk menangani tugas kompleks, dengan tujuan pemecahan masalah yang melampaui jawaban sederhana
Mencatat skor validasi 77.1% pada benchmark ARC-AGI-2, mencapai lebih dari dua kali performa penalaran dibanding 3 Pro sebelumnya
Menunjukkan kemampuan penalaran yang lebih baik pada tugas tingkat tinggi seperti integrasi data, penjelasan visual, dan coding kreatif
Menangani beragam bentuk input seperti teks, audio, gambar, video, dan repositori kode, serta mendukung hingga konteks 1 juta token dan output 64K token
Melalui preview kali ini, Google sedang memverifikasi peningkatan workflow agentic dan persiapan menuju ketersediaan umum di masa mendatang

Ringkasan Gemini 3.1 Pro

Gemini 3.1 Pro adalah model AI multimodal canggih untuk menangani tugas kompleks, dengan tujuan pemecahan masalah yang melampaui jawaban sederhana
- Google menyebutnya sebagai peningkatan kecerdasan inti yang memungkinkan capaian Gemini 3 Deep Think
- Menangani input multimodal seperti teks, audio, gambar, video, dan repositori kode
- Mendukung context window hingga 1 juta token dan output 64K token
- Versi ini sedang didistribusikan secara bertahap ke produk konsumen, developer, dan enterprise
Jalur distribusinya adalah sebagai berikut
- Developer: Gemini API di Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Enterprise: Vertex AI, Gemini Enterprise
- Konsumen: aplikasi Gemini, NotebookLM

Performa dan benchmark

Gemini 3.1 Pro dioptimalkan untuk pemecahan masalah kompleks melalui peningkatan yang berfokus pada kemampuan penalaran (reasoning)
- Mencatat skor validasi 77.1% pada benchmark ARC-AGI-2, peningkatan performa lebih dari dua kali lipat dibanding 3 Pro sebelumnya
- Hasil perbandingan performa utama (dibanding Gemini 3 Pro):
  - ARC-AGI-2: 77.1% (vs 31.1%)
  - GPQA Diamond: 94.3% (vs 91.9%)
  - Terminal-Bench 2.0: 68.5% (vs 56.9%)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: 85.9% (vs 59.2%)
- Benchmark ini mengevaluasi kemampuan model dalam menyelesaikan pola logika yang sepenuhnya baru
Google mendefinisikannya sebagai “model dasar yang lebih cerdas dan lebih mumpuni”, dan menempatkannya sebagai fondasi untuk pemecahan masalah kompleks

Contoh penggunaan nyata

Gemini 3.1 Pro menunjukkan berbagai kemungkinan aplikasi dengan menerapkan penalaran tingkat lanjut dalam bentuk yang praktis
- Pembuatan penjelasan visual: kemampuan untuk menjelaskan topik kompleks secara jelas dan visual
- Integrasi data: menggabungkan berbagai data menjadi satu tampilan terpadu
- Implementasi proyek kreatif: mewujudkan ide artistik dan desain ke dalam kode
Contoh spesifik
- Animasi berbasis kode: menghasilkan animasi SVG untuk website dari prompt teks, meminimalkan ukuran file tanpa kehilangan resolusi
- Integrasi sistem kompleks: membangun dashboard yang memvisualisasikan orbit Stasiun Luar Angkasa Internasional (ISS) secara real-time
- Desain interaktif: membuat kode simulasi kawanan starling 3D untuk menghadirkan pelacakan tangan dan antarmuka yang responsif terhadap musik
- Coding kreatif: merancang website portofolio modern yang mencerminkan nuansa sastra Wuthering Heights

Distribusi dan akses

Gemini 3.1 Pro dirilis dalam bentuk preview untuk mengumpulkan umpan balik pengguna
- Pengguna paket Google AI Pro dan Ultra dapat menikmati batas penggunaan yang lebih tinggi di aplikasi Gemini
- Di NotebookLM, tersedia secara eksklusif untuk pengguna Pro dan Ultra
- Developer dan enterprise dapat mengaksesnya melalui AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio

Rencana ke depan

Setelah peluncuran Gemini 3 Pro, Google mempertahankan kecepatan peningkatan yang tinggi, dan melalui preview 3.1 Pro ini mendorong verifikasi pembaruan serta perluasan workflow agentic
Ketersediaan umum (GA) akan dilakukan setelah verifikasi selesai, dan Google menyatakan bahwa mereka “menantikan apa yang akan dibuat dan ditemukan pengguna dengan model ini”

4 komentar

jwh926 2026-02-20

Semoga kemampuan coding-nya segera bisa menyamai Claude Opus.

ifmkl 2026-02-20

Betul. Pada hari pertama model preview 3.0 naik ke CLI dan saya memakainya, saya sangat suka sampai menulis kesan-kesan di blog juga, tapi lalu menurun drastis ... Karena itu sekarang saya lebih banyak memakai Codex dan Claude Code. Tapi Claude juga agak... Saya mau lihat dulu apakah 4.6 Opus atau Sonnet bagus, kalau tidak mungkin untuk coding pakai Codex, dan untuk pekerjaan lain saya mantapkan Gemini..

GN⁺ 2026-02-20

Komentar Hacker News

Gemini 3.1 Pro benar-benar sangat dinantikan
Sejauh ini saya hampir selalu lebih condong ke Claude, dan Claude Opus sangat unggul khususnya untuk coding
Gemini juga hampir hebat, tapi masih belum setara Claude
Saya bergantian berlangganan ChatGPT Plus ↔ Gemini Pro ↔ Claude tiap bulan agar tidak melewatkan keunggulan masing-masing model
Sebagai mantan Googler, saya berharap Gemini 3.1 Pro lebih baik daripada 3.0
Tapi untuk pengembangan, Gemini adalah model yang paling bikin frustrasi
Claude Opus di VS Code Copilot menyeimbangkan alur berpikir dan respons dengan baik, sedangkan Gemini hanya memakai thinking token tanpa menjelaskan hasilnya
Ia sering terjebak dalam loop, buruk dalam penggunaan tool, dan mengubah file yang salah
Jadi saya sempat memakai strategi “perencanaan dengan Gemini, eksekusi dengan Claude”, tapi akhirnya hanya memakai Claude
Anthropic tampak menyempurnakan model berdasarkan proyek nyata, sementara Google terkesan kurang menguji pemakaian di dunia nyata
- Proyek saya banyak melibatkan matematika ruang warna, dan Gemini 3 Pro sering membuat kesalahan tipe dasar
  Ia mengira int8 sebagai float, atau lupa apakah sesuatu sudah dinormalisasi
  Rasanya seperti berbicara dengan orang yang daya ingatnya lemah
  Meski begitu, ia cukup membantu untuk diskusi desain arsitektur
- Saat memakai Gemini 3 di Openclaw, biayanya mencapai 10~20 dolar per jam dan 1.5~3 dolar per prompt
  Itu benar-benar puncak inefisiensi
- Performa model pada akhirnya bergantung pada tuning dan integrasi tool
  Claude terasa seperti mempelajari ‘proses coding’ itu sendiri, dan Anthropic tampaknya memasukkan umpan balik pengguna ke dalam tuning
  Google tampak mengejar model serbaguna, sehingga terkesan ‘bisa sedikit dari segalanya tapi tidak benar-benar sempurna dalam apa pun’
- Gemini 3.0 bagi saya sudah pada level tidak bisa dipakai
  Claude atau Codex menjelaskan pendekatan mereka terhadap masalah, sedangkan Gemini langsung mengeksekusi
  Ia mengabaikan permintaan revisi dan mengotori workspace
  Meski bisa dipakai gratis, saya hampir tidak pernah memakainya
  Anthropic tampaknya sejak awal menyadari bahwa ‘pengguna harus bisa memegang kendali’
- Gemini lemah untuk pekerjaan agentic
  OpenAI sudah menyusul hingga level Claude, tapi Google masih jauh tertinggal
Orang-orang meremehkan efisiensi biaya Google
Harganya setengah dari Opus, tapi performanya tetap cukup bagus
Menurut metrik Artificial Analysis, 3.1 40% lebih murah dan 30% lebih cepat daripada Opus
- Tapi ada juga sudut pandang bahwa “jawaban luar biasa seharga 2 sen lebih baik daripada jawaban biasa seharga 1 sen”
  Untuk pengembangan, memakai model terbaik tetap sepadan bahkan jika biayanya 300 dolar per bulan
  Untuk AI konsumen, hitungannya akan berbeda
- Tentu saja, kalau pekerjaannya tidak beres, setengah harga pun tidak ada artinya
  Namun jika performanya bisa menyamai, daya saing harga tetap menarik
- Jika Opus menghasilkan kode 20% lebih baik, selisih itu besar dalam proyek nyata
  Tapi jika performanya mirip, penghematan biaya 50% adalah keuntungan besar
- Gemini punya skor benchmark yang bagus, dan engineer DeepMind juga hebat
  Secara pribadi, model ini bekerja baik untuk pekerjaan maupun coding hobi saya
  Meski begitu, saya heran karena komunitas banyak memberi penilaian buruk
- Deepseek hanya seharga 2% dari Opus, tapi kebanyakan orang tetap tidak memakainya untuk coding
Model-model belakangan ini terlalu kuat
Sekarang kita bisa membuat software utuh dalam waktu jauh lebih singkat daripada dulu
Tapi perbedaan perilaku antarversi terlalu besar, sehingga rasanya seperti mengelola tim baru setiap bulan
Model juga bisa diganti atau berubah secara halus tanpa pemberitahuan, sehingga terasa seperti fondasi yang tidak stabil
- Opus 4.6 memecahkan masalah yang sebelumnya gagal diselesaikan o4-mini
  Bisa dilihat di isu sqlite-chronicle
  Setelah itu, ia menyelesaikan beberapa kebuntuan di berbagai proyek
- Saya sudah memakai model Anthropic, Google, dan OpenAI, tapi semuanya masih kurang untuk membuat produk yang benar-benar lengkap
  Meski begitu, mereka sudah cukup untuk mencari ide dan memulai codebase
- Aplikasi yang dibuat dengan GPT 5.1 codex max masih berjalan dengan baik
  Bahkan untuk kode yang sama, model yang membuatnya tampak memiliki semacam konsistensi diri sehingga lebih mudah menanganinya lagi
- Dalam praktiknya, rasanya seperti mengelola ‘engineer jenius tapi nyeleneh’
  Meski begitu, ini tetap teknologi yang luar biasa
- Ada juga candaan soal “mempekerjakan engineer jenius selama sebulan dengan harga semangkuk sushi”, lalu dibalas dengan lelucon “jadi yang dibuat cuma kalkulator?”
Harga Gemini 3.1 tidak berubah
Input $2/M, output $12/M, seperti tertulis di dokumentasi resmi
Knowledge cutoff-nya Januari 2025, dan mode “medium thinking” baru ditambahkan
Selisih harga dengan Opus 4.6 yang $5/$25 cukup besar
- Untuk memakai agen CLI perusahaan, prosedur rumit Google jadi masalah
  Pengaturan aturan IAM, pembayaran, sampai memahami nama produk membuat orang tersendat
  OpenAI dan Anthropic jauh lebih sederhana
  Meski begitu, biaya bulanannya mirip
- Jika performa penalaran jangka panjang di Vendor-Bench 2 tidak membaik, saya tidak berniat pindah dari CC
  Anthropic unggul lewat optimisasi full-stack
- Masih belum ada minimal reasoning
  Belum ada model seperti Opus 4.6 yang tetap cepat dan cerdas meski thinking dimatikan
- Terlihat lebih murah daripada Codex, jadi menarik
- Knowledge cutoff Januari 2025 terasa agak lama
Gemini 3 masih dalam status preview, dan 2.5 akan segera dihentikan
Melihat jadwal penghentian resmi, beberapa model dihentikan bahkan tanpa model pengganti
Jadi saya bertanya-tanya kapan Google benar-benar akan merilis model production yang sesungguhnya
- Saya juga setuju. Berbahaya bergantung pada model yang dihentikan atau bahkan belum dirilis
  Saya punya sistem yang benar-benar sedang berjalan, jadi ini terasa sangat mengkhawatirkan
- Sepertinya Anda salah membaca tautannya. Yang dihentikan hanya 2.5-preview, sedangkan 2.5 versi resmi dipertahankan sampai musim gugur 2026
- Google pasti tidak akan menghentikan software yang dipakai banyak orang, kan?
  Kalau melihat Killed by Google, kita tahu betapa hampanya pernyataan itu
- Situasi seperti inilah yang membuat orang berkata, “ah, ini benar-benar khas Google”
- Belum ada pengumuman penghentian untuk 2.5
  Jika 3.0 masih preview, 2.5 kemungkinan akan dipertahankan setidaknya selama 1 tahun
  Dokumentasi resmi juga menyebutkan bahwa “tanggal penghentian pasti akan diberi tahu setelah pengumuman sebelumnya”
Gemini menyelesaikan masalah race condition sinkronisasi UI dan data sekaligus
Bahkan Opus 4.6 baru berhasil setelah tiga percobaan, jadi itu cukup mengejutkan
Sekarang jawabannya kurang bertele-tele dan langsung ke inti
Ke depan, saya mungkin akan memakai strategi Gemini untuk R&D, lalu Opus/Sonnet 4.6 untuk penyelesaian akhir
- Kombinasi saya adalah Opus 4.6 untuk riset kode, GPT 5.3 codex untuk penulisan kode, Gemini untuk algoritme sains dan matematika, dan Grok untuk pertanyaan terkait keamanan
  Jika memakai wrapper terpadu yang mendukung banyak model, beban memilih model jadi berkurang
  Pada akhirnya yang penting adalah “model yang paling cocok untuk masalah saya”
Gemini menjawab “pertanyaan tempat cuci mobil” dengan sempurna
Jawabannya logis, seperti “kalau berjalan kaki, tidak ada mobil untuk dicuci, jadi harus pergi dengan mengendarai mobil”
- Mungkin pertanyaan itu sudah ada di data latih, jadi saya menggantinya dengan pertanyaan cuci gajah
  Gemini menjelaskan secara logis bahwa “Anda harus membawa gajah itu”, lengkap dengan alasan detail
  Kemampuan penalarannya cukup mengesankan
- GPT-OSS-120b juga memberi jawaban benar untuk pertanyaan yang sama
  Hanya saja, komentar Gemini tentang “prakiraan cuci mobil saat hari hujan” terasa lucu tapi juga terlalu percaya diri
- Yang penting bukan sekadar benar jawabannya, melainkan apakah alasannya benar-benar diturunkan lewat penalaran
- Sebenarnya Gemini 3 Pro dan Flash juga sudah menjawab pertanyaan ini dengan benar
- Tapi jawabannya terlalu panjang sehingga malah melelahkan
Dalam tes “SVG pelikan mengendarai sepeda”, Gemini memberi hasil yang bagus
Lihat tautan hasil
Mungkin kemampuan generasi visual meningkat berkat kenaikan benchmark ARC-AGI
- SVG animasi kini sudah masuk sebagai contoh dasar
  Benchmark itu sendiri jadi kehilangan makna, dan sekarang lebih terasa sebagai urusan selera
  Kita butuh benchmark ‘vibe check’ yang baru
- Hasil yang saya dapat terasa lebih bergaya 3D daripada seperti pelikan
  Perubahan yang menarik
- Tapi benchmark SVG pribadi saya (diagram penampang jantung manusia) masih tetap gagal
  Pada akhirnya, tangan desainer manusia masih dibutuhkan
- Jika model terus berkembang, mungkin nanti kita bisa membuat UI real-time berbasis SVG atau media interaktif
- Sebaliknya, format vektor lain seperti PostScript hampir tidak menunjukkan perkembangan
  Mungkin ini hasil dari Google yang mengoptimalkan khusus untuk SVG
SVG pelikan di blog Simon Willison cukup bagus, tapi butuh lebih dari 5 menit untuk dihasilkan
Ini tampaknya masalah performa di awal peluncuran
- Masalah Gemini selalu sikapnya yang “terlalu ingin membantu”
  Kita cuma ingin pelikan dan sepeda, tapi ia malah menambahkan awan, matahari, dan topi
  Dalam coding juga sama, ia tidak berhenti melakukan refactor yang tidak diminta dan menambahkan komentar
- Yang lucu, justru karena tes seperti ini Google benar-benar terdorong mengerahkan banyak upaya pada generasi SVG hewan+kendaraan
  Tweet Jeff Dean juga mengisyaratkan hal itu
- Saya penasaran kenapa LLM begitu kuat dalam SVG
  Padahal pemahaman spasial lain lemah, tapi untuk membuat bentuk yang presisi justru sangat unggul
- Sebentar lagi model-model mungkin akan bersaing benchmark lewat ‘generasi SVG pelikan bersepeda’
- Jika melihat post resmi di blog Google, generasi SVG disebut sebagai use case utama
  Jadi ini mungkin bukan peningkatan kemampuan umum, melainkan hasil dari pelatihan eksplisit

clumsily 2026-02-20

Mungkin sebentar lagi performanya akan diam-diam di-nerf; seberapa besar nerf-nya itulah yang kemungkinan paling penting. (Memang kebanyakan model AI terasa makin lama makin bodoh, tapi Google terasa jauh lebih parah soal ini.)
Saya ingat 3 Pro juga sempat bagus tepat setelah pertama kali rilis, tetapi sekitar seminggu kemudian tiba-tiba jadi bodoh, dan akhirnya saya berhenti memakainya.