4 poin oleh GN⁺ 2026-02-20 | 4 komentar | Bagikan ke WhatsApp
  • model AI multimodal canggih untuk menangani tugas kompleks, dengan tujuan pemecahan masalah yang melampaui jawaban sederhana
  • Mencatat skor validasi 77.1% pada benchmark ARC-AGI-2, mencapai lebih dari dua kali performa penalaran dibanding 3 Pro sebelumnya
  • Menunjukkan kemampuan penalaran yang lebih baik pada tugas tingkat tinggi seperti integrasi data, penjelasan visual, dan coding kreatif
  • Menangani beragam bentuk input seperti teks, audio, gambar, video, dan repositori kode, serta mendukung hingga konteks 1 juta token dan output 64K token
  • Melalui preview kali ini, Google sedang memverifikasi peningkatan workflow agentic dan persiapan menuju ketersediaan umum di masa mendatang

Ringkasan Gemini 3.1 Pro

  • Gemini 3.1 Pro adalah model AI multimodal canggih untuk menangani tugas kompleks, dengan tujuan pemecahan masalah yang melampaui jawaban sederhana
    • Google menyebutnya sebagai peningkatan kecerdasan inti yang memungkinkan capaian Gemini 3 Deep Think
    • Menangani input multimodal seperti teks, audio, gambar, video, dan repositori kode
    • Mendukung context window hingga 1 juta token dan output 64K token
    • Versi ini sedang didistribusikan secara bertahap ke produk konsumen, developer, dan enterprise
  • Jalur distribusinya adalah sebagai berikut

Performa dan benchmark

  • Gemini 3.1 Pro dioptimalkan untuk pemecahan masalah kompleks melalui peningkatan yang berfokus pada kemampuan penalaran (reasoning)
    • Mencatat skor validasi 77.1% pada benchmark ARC-AGI-2, peningkatan performa lebih dari dua kali lipat dibanding 3 Pro sebelumnya
    • Hasil perbandingan performa utama (dibanding Gemini 3 Pro):
      • ARC-AGI-2: 77.1% (vs 31.1%)
      • GPQA Diamond: 94.3% (vs 91.9%)
      • Terminal-Bench 2.0: 68.5% (vs 56.9%)
      • LiveCodeBench Pro: Elo 2887 (vs 2439)
      • BrowseComp: 85.9% (vs 59.2%)
    • Benchmark ini mengevaluasi kemampuan model dalam menyelesaikan pola logika yang sepenuhnya baru
  • Google mendefinisikannya sebagai “model dasar yang lebih cerdas dan lebih mumpuni”, dan menempatkannya sebagai fondasi untuk pemecahan masalah kompleks

Contoh penggunaan nyata

  • Gemini 3.1 Pro menunjukkan berbagai kemungkinan aplikasi dengan menerapkan penalaran tingkat lanjut dalam bentuk yang praktis
    • Pembuatan penjelasan visual: kemampuan untuk menjelaskan topik kompleks secara jelas dan visual
    • Integrasi data: menggabungkan berbagai data menjadi satu tampilan terpadu
    • Implementasi proyek kreatif: mewujudkan ide artistik dan desain ke dalam kode
  • Contoh spesifik
    • Animasi berbasis kode: menghasilkan animasi SVG untuk website dari prompt teks, meminimalkan ukuran file tanpa kehilangan resolusi
    • Integrasi sistem kompleks: membangun dashboard yang memvisualisasikan orbit Stasiun Luar Angkasa Internasional (ISS) secara real-time
    • Desain interaktif: membuat kode simulasi kawanan starling 3D untuk menghadirkan pelacakan tangan dan antarmuka yang responsif terhadap musik
    • Coding kreatif: merancang website portofolio modern yang mencerminkan nuansa sastra Wuthering Heights

Distribusi dan akses

  • Gemini 3.1 Pro dirilis dalam bentuk preview untuk mengumpulkan umpan balik pengguna
    • Pengguna paket Google AI Pro dan Ultra dapat menikmati batas penggunaan yang lebih tinggi di aplikasi Gemini
    • Di NotebookLM, tersedia secara eksklusif untuk pengguna Pro dan Ultra
    • Developer dan enterprise dapat mengaksesnya melalui AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio

Rencana ke depan

  • Setelah peluncuran Gemini 3 Pro, Google mempertahankan kecepatan peningkatan yang tinggi, dan melalui preview 3.1 Pro ini mendorong verifikasi pembaruan serta perluasan workflow agentic
  • Ketersediaan umum (GA) akan dilakukan setelah verifikasi selesai, dan Google menyatakan bahwa mereka “menantikan apa yang akan dibuat dan ditemukan pengguna dengan model ini

4 komentar

 
jwh926 2026-02-20

Semoga kemampuan coding-nya segera bisa menyamai Claude Opus.

 
ifmkl 2026-02-20

Betul. Pada hari pertama model preview 3.0 naik ke CLI dan saya memakainya, saya sangat suka sampai menulis kesan-kesan di blog juga, tapi lalu menurun drastis ... Karena itu sekarang saya lebih banyak memakai Codex dan Claude Code. Tapi Claude juga agak... Saya mau lihat dulu apakah 4.6 Opus atau Sonnet bagus, kalau tidak mungkin untuk coding pakai Codex, dan untuk pekerjaan lain saya mantapkan Gemini..

 
GN⁺ 2026-02-20
Komentar Hacker News
  • Gemini 3.1 Pro benar-benar sangat dinantikan
    Sejauh ini saya hampir selalu lebih condong ke Claude, dan Claude Opus sangat unggul khususnya untuk coding
    Gemini juga hampir hebat, tapi masih belum setara Claude
    Saya bergantian berlangganan ChatGPT Plus ↔ Gemini Pro ↔ Claude tiap bulan agar tidak melewatkan keunggulan masing-masing model

  • Sebagai mantan Googler, saya berharap Gemini 3.1 Pro lebih baik daripada 3.0
    Tapi untuk pengembangan, Gemini adalah model yang paling bikin frustrasi
    Claude Opus di VS Code Copilot menyeimbangkan alur berpikir dan respons dengan baik, sedangkan Gemini hanya memakai thinking token tanpa menjelaskan hasilnya
    Ia sering terjebak dalam loop, buruk dalam penggunaan tool, dan mengubah file yang salah
    Jadi saya sempat memakai strategi “perencanaan dengan Gemini, eksekusi dengan Claude”, tapi akhirnya hanya memakai Claude
    Anthropic tampak menyempurnakan model berdasarkan proyek nyata, sementara Google terkesan kurang menguji pemakaian di dunia nyata

    • Proyek saya banyak melibatkan matematika ruang warna, dan Gemini 3 Pro sering membuat kesalahan tipe dasar
      Ia mengira int8 sebagai float, atau lupa apakah sesuatu sudah dinormalisasi
      Rasanya seperti berbicara dengan orang yang daya ingatnya lemah
      Meski begitu, ia cukup membantu untuk diskusi desain arsitektur
    • Saat memakai Gemini 3 di Openclaw, biayanya mencapai 10~20 dolar per jam dan 1.5~3 dolar per prompt
      Itu benar-benar puncak inefisiensi
    • Performa model pada akhirnya bergantung pada tuning dan integrasi tool
      Claude terasa seperti mempelajari ‘proses coding’ itu sendiri, dan Anthropic tampaknya memasukkan umpan balik pengguna ke dalam tuning
      Google tampak mengejar model serbaguna, sehingga terkesan ‘bisa sedikit dari segalanya tapi tidak benar-benar sempurna dalam apa pun’
    • Gemini 3.0 bagi saya sudah pada level tidak bisa dipakai
      Claude atau Codex menjelaskan pendekatan mereka terhadap masalah, sedangkan Gemini langsung mengeksekusi
      Ia mengabaikan permintaan revisi dan mengotori workspace
      Meski bisa dipakai gratis, saya hampir tidak pernah memakainya
      Anthropic tampaknya sejak awal menyadari bahwa ‘pengguna harus bisa memegang kendali’
    • Gemini lemah untuk pekerjaan agentic
      OpenAI sudah menyusul hingga level Claude, tapi Google masih jauh tertinggal
  • Orang-orang meremehkan efisiensi biaya Google
    Harganya setengah dari Opus, tapi performanya tetap cukup bagus
    Menurut metrik Artificial Analysis, 3.1 40% lebih murah dan 30% lebih cepat daripada Opus

    • Tapi ada juga sudut pandang bahwa “jawaban luar biasa seharga 2 sen lebih baik daripada jawaban biasa seharga 1 sen”
      Untuk pengembangan, memakai model terbaik tetap sepadan bahkan jika biayanya 300 dolar per bulan
      Untuk AI konsumen, hitungannya akan berbeda
    • Tentu saja, kalau pekerjaannya tidak beres, setengah harga pun tidak ada artinya
      Namun jika performanya bisa menyamai, daya saing harga tetap menarik
    • Jika Opus menghasilkan kode 20% lebih baik, selisih itu besar dalam proyek nyata
      Tapi jika performanya mirip, penghematan biaya 50% adalah keuntungan besar
    • Gemini punya skor benchmark yang bagus, dan engineer DeepMind juga hebat
      Secara pribadi, model ini bekerja baik untuk pekerjaan maupun coding hobi saya
      Meski begitu, saya heran karena komunitas banyak memberi penilaian buruk
    • Deepseek hanya seharga 2% dari Opus, tapi kebanyakan orang tetap tidak memakainya untuk coding
  • Model-model belakangan ini terlalu kuat
    Sekarang kita bisa membuat software utuh dalam waktu jauh lebih singkat daripada dulu
    Tapi perbedaan perilaku antarversi terlalu besar, sehingga rasanya seperti mengelola tim baru setiap bulan
    Model juga bisa diganti atau berubah secara halus tanpa pemberitahuan, sehingga terasa seperti fondasi yang tidak stabil

    • Opus 4.6 memecahkan masalah yang sebelumnya gagal diselesaikan o4-mini
      Bisa dilihat di isu sqlite-chronicle
      Setelah itu, ia menyelesaikan beberapa kebuntuan di berbagai proyek
    • Saya sudah memakai model Anthropic, Google, dan OpenAI, tapi semuanya masih kurang untuk membuat produk yang benar-benar lengkap
      Meski begitu, mereka sudah cukup untuk mencari ide dan memulai codebase
    • Aplikasi yang dibuat dengan GPT 5.1 codex max masih berjalan dengan baik
      Bahkan untuk kode yang sama, model yang membuatnya tampak memiliki semacam konsistensi diri sehingga lebih mudah menanganinya lagi
    • Dalam praktiknya, rasanya seperti mengelola ‘engineer jenius tapi nyeleneh’
      Meski begitu, ini tetap teknologi yang luar biasa
    • Ada juga candaan soal “mempekerjakan engineer jenius selama sebulan dengan harga semangkuk sushi”, lalu dibalas dengan lelucon “jadi yang dibuat cuma kalkulator?”
  • Harga Gemini 3.1 tidak berubah
    Input $2/M, output $12/M, seperti tertulis di dokumentasi resmi
    Knowledge cutoff-nya Januari 2025, dan mode “medium thinking” baru ditambahkan
    Selisih harga dengan Opus 4.6 yang $5/$25 cukup besar

    • Untuk memakai agen CLI perusahaan, prosedur rumit Google jadi masalah
      Pengaturan aturan IAM, pembayaran, sampai memahami nama produk membuat orang tersendat
      OpenAI dan Anthropic jauh lebih sederhana
      Meski begitu, biaya bulanannya mirip
    • Jika performa penalaran jangka panjang di Vendor-Bench 2 tidak membaik, saya tidak berniat pindah dari CC
      Anthropic unggul lewat optimisasi full-stack
    • Masih belum ada minimal reasoning
      Belum ada model seperti Opus 4.6 yang tetap cepat dan cerdas meski thinking dimatikan
    • Terlihat lebih murah daripada Codex, jadi menarik
    • Knowledge cutoff Januari 2025 terasa agak lama
  • Gemini 3 masih dalam status preview, dan 2.5 akan segera dihentikan
    Melihat jadwal penghentian resmi, beberapa model dihentikan bahkan tanpa model pengganti
    Jadi saya bertanya-tanya kapan Google benar-benar akan merilis model production yang sesungguhnya

    • Saya juga setuju. Berbahaya bergantung pada model yang dihentikan atau bahkan belum dirilis
      Saya punya sistem yang benar-benar sedang berjalan, jadi ini terasa sangat mengkhawatirkan
    • Sepertinya Anda salah membaca tautannya. Yang dihentikan hanya 2.5-preview, sedangkan 2.5 versi resmi dipertahankan sampai musim gugur 2026
    • Google pasti tidak akan menghentikan software yang dipakai banyak orang, kan?
      Kalau melihat Killed by Google, kita tahu betapa hampanya pernyataan itu
    • Situasi seperti inilah yang membuat orang berkata, “ah, ini benar-benar khas Google”
    • Belum ada pengumuman penghentian untuk 2.5
      Jika 3.0 masih preview, 2.5 kemungkinan akan dipertahankan setidaknya selama 1 tahun
      Dokumentasi resmi juga menyebutkan bahwa “tanggal penghentian pasti akan diberi tahu setelah pengumuman sebelumnya”
  • Gemini menyelesaikan masalah race condition sinkronisasi UI dan data sekaligus
    Bahkan Opus 4.6 baru berhasil setelah tiga percobaan, jadi itu cukup mengejutkan
    Sekarang jawabannya kurang bertele-tele dan langsung ke inti
    Ke depan, saya mungkin akan memakai strategi Gemini untuk R&D, lalu Opus/Sonnet 4.6 untuk penyelesaian akhir

    • Kombinasi saya adalah Opus 4.6 untuk riset kode, GPT 5.3 codex untuk penulisan kode, Gemini untuk algoritme sains dan matematika, dan Grok untuk pertanyaan terkait keamanan
      Jika memakai wrapper terpadu yang mendukung banyak model, beban memilih model jadi berkurang
      Pada akhirnya yang penting adalah “model yang paling cocok untuk masalah saya”
  • Gemini menjawab “pertanyaan tempat cuci mobil” dengan sempurna
    Jawabannya logis, seperti “kalau berjalan kaki, tidak ada mobil untuk dicuci, jadi harus pergi dengan mengendarai mobil”

    • Mungkin pertanyaan itu sudah ada di data latih, jadi saya menggantinya dengan pertanyaan cuci gajah
      Gemini menjelaskan secara logis bahwa “Anda harus membawa gajah itu”, lengkap dengan alasan detail
      Kemampuan penalarannya cukup mengesankan
    • GPT-OSS-120b juga memberi jawaban benar untuk pertanyaan yang sama
      Hanya saja, komentar Gemini tentang “prakiraan cuci mobil saat hari hujan” terasa lucu tapi juga terlalu percaya diri
    • Yang penting bukan sekadar benar jawabannya, melainkan apakah alasannya benar-benar diturunkan lewat penalaran
    • Sebenarnya Gemini 3 Pro dan Flash juga sudah menjawab pertanyaan ini dengan benar
    • Tapi jawabannya terlalu panjang sehingga malah melelahkan
  • Dalam tes “SVG pelikan mengendarai sepeda”, Gemini memberi hasil yang bagus
    Lihat tautan hasil
    Mungkin kemampuan generasi visual meningkat berkat kenaikan benchmark ARC-AGI

    • SVG animasi kini sudah masuk sebagai contoh dasar
      Benchmark itu sendiri jadi kehilangan makna, dan sekarang lebih terasa sebagai urusan selera
      Kita butuh benchmark ‘vibe check’ yang baru
    • Hasil yang saya dapat terasa lebih bergaya 3D daripada seperti pelikan
      Perubahan yang menarik
    • Tapi benchmark SVG pribadi saya (diagram penampang jantung manusia) masih tetap gagal
      Pada akhirnya, tangan desainer manusia masih dibutuhkan
    • Jika model terus berkembang, mungkin nanti kita bisa membuat UI real-time berbasis SVG atau media interaktif
    • Sebaliknya, format vektor lain seperti PostScript hampir tidak menunjukkan perkembangan
      Mungkin ini hasil dari Google yang mengoptimalkan khusus untuk SVG
  • SVG pelikan di blog Simon Willison cukup bagus, tapi butuh lebih dari 5 menit untuk dihasilkan
    Ini tampaknya masalah performa di awal peluncuran

    • Masalah Gemini selalu sikapnya yang “terlalu ingin membantu”
      Kita cuma ingin pelikan dan sepeda, tapi ia malah menambahkan awan, matahari, dan topi
      Dalam coding juga sama, ia tidak berhenti melakukan refactor yang tidak diminta dan menambahkan komentar
    • Yang lucu, justru karena tes seperti ini Google benar-benar terdorong mengerahkan banyak upaya pada generasi SVG hewan+kendaraan
      Tweet Jeff Dean juga mengisyaratkan hal itu
    • Saya penasaran kenapa LLM begitu kuat dalam SVG
      Padahal pemahaman spasial lain lemah, tapi untuk membuat bentuk yang presisi justru sangat unggul
    • Sebentar lagi model-model mungkin akan bersaing benchmark lewat ‘generasi SVG pelikan bersepeda’
    • Jika melihat post resmi di blog Google, generasi SVG disebut sebagai use case utama
      Jadi ini mungkin bukan peningkatan kemampuan umum, melainkan hasil dari pelatihan eksplisit
 
clumsily 2026-02-20

Mungkin sebentar lagi performanya akan diam-diam di-nerf; seberapa besar nerf-nya itulah yang kemungkinan paling penting. (Memang kebanyakan model AI terasa makin lama makin bodoh, tapi Google terasa jauh lebih parah soal ini.)
Saya ingat 3 Pro juga sempat bagus tepat setelah pertama kali rilis, tetapi sekitar seminggu kemudian tiba-tiba jadi bodoh, dan akhirnya saya berhenti memakainya.