Gemini 3 Deep Think diperkenalkan

(blog.google)

7 poin oleh GN⁺ 2026-02-13 | 1 komentar | Bagikan ke WhatsApp

Model AI Google Gemini 3 Deep Think, yang ditujukan untuk pemecahan masalah sains, riset, dan rekayasa, telah menerima peningkatan besar
Versi baru dirancang melalui kolaborasi dengan ilmuwan dan peneliti agar mampu menangani masalah kompleks dengan data yang tidak lengkap atau tanpa jawaban benar yang jelas
Mencapai performa setara medali emas di berbagai olimpiade internasional dan benchmark dalam bidang matematika, pemrograman, fisika, dan kimia
Mendukung riset nyata dan aplikasi rekayasa, serta menawarkan fungsi praktis seperti membuat model yang dapat dicetak 3D dari sketsa
Tersedia bagi pelanggan Google AI Ultra dan melalui program akses awal Gemini API, dengan rencana perluasan untuk peneliti dan perusahaan

Ikhtisar utama Gemini 3 Deep Think

Gemini 3 Deep Think adalah mode penalaran khusus yang dirancang untuk menyelesaikan tantangan modern di bidang sains, riset, dan rekayasa
- Google bekerja sama erat dengan ilmuwan dan peneliti untuk memperkuat kemampuannya dalam menangani masalah yang tidak memiliki jawaban pasti atau memiliki data yang tidak lengkap
- Dengan menggabungkan pengetahuan teoretis dan kegunaan praktis dalam rekayasa, model ini berkembang menjadi model yang berfokus pada aplikasi nyata
Peningkatan kali ini tersedia bagi pelanggan Google AI Ultra melalui aplikasi Gemini, dan peneliti, insinyur, serta perusahaan dapat mengajukan akses awal melalui Gemini API

Contoh penggunaan awal

Lisa Carbone, matematikawan dari Rutgers University, menggunakan Deep Think untuk meninjau makalah matematika terkait fisika energi tinggi dan menemukan kesalahan logika yang lolos dari tinjauan manusia
Wang Lab dari Duke University mengoptimalkan proses pertumbuhan kristal yang kompleks untuk eksplorasi material semikonduktor, dan merancang resep pertumbuhan film tipis di atas 100μm
Anupam Pathak dari divisi Google Platforms & Devices menguji Deep Think untuk mempercepat perancangan komponen fisik

Peningkatan presisi matematis dan algoritmik

Deep Think mencatat hasil setara medali emas di International Mathematical Olympiad dan International Collegiate Programming Contest
Versi terbaru mencapai skor tertinggi pada benchmark akademik berikut
- Humanity’s Last Exam: 48.4% (tanpa penggunaan alat)
- ARC-AGI-2: 84.6% (diverifikasi oleh ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: performa setara medali emas
Deep Think juga digunakan dalam pengembangan agen khusus yang melakukan eksplorasi matematis

Menjelajahi ranah sains yang kompleks

Melampaui matematika dan pemrograman, performanya juga meningkat di kimia, fisika, dan sains secara umum
- Pada bagian tertulis International Physics Olympiad dan International Chemistry Olympiad 2025, model ini mencapai hasil setara medali emas
- Pada benchmark fisika teoretis CMT-Benchmark, model ini mencatat skor 50.5%
Performa ini membuktikan perluasan kemampuan penalaran ilmiah Deep Think

Mempercepat rekayasa di dunia nyata

Deep Think mendukung interpretasi data yang kompleks dan pemodelan sistem fisik, dengan tujuan digunakan dalam pekerjaan nyata para peneliti dan insinyur
Melalui Gemini API, akses dalam lingkungan riset nyata sedang diperluas
Sebagai contoh, pengguna dapat memasukkan sketsa untuk membuat model yang dapat dicetak 3D, dan Deep Think akan melakukan analisis, pemodelan, hingga pembuatan file

Akses dan penggunaan

Pelanggan Google AI Ultra dapat langsung menggunakan Deep Think di aplikasi Gemini
Peneliti, insinyur, dan perusahaan dapat mendaftar untuk mengikuti program akses awal melalui Gemini API
Google berharap Deep Think dapat mendorong meluasnya penemuan ilmiah dan contoh penerapan baru

1 komentar

GN⁺ 2026-02-13

Komentar Hacker News

Skor Arc-AGI-2 mencapai 84.6%, cukup mengejutkan
Di postingan blog resmi ada detail tentang Gemini 3 Deep Think
- Sejak dulu saya merasa Gemini 3 itu sangat serbabisa (general) sampai sulit dipercaya
  Hanya dengan penjelasan teks, model ini bisa menang di Balatro (ante 8). Bagi manusia ini tidak terlalu sulit, tetapi mengejutkan bahwa LLM bisa melakukannya tanpa pelatihan khusus
  Saya mengujinya di Balatro Bench, dan Deepseek sama sekali tidak bisa memainkan game ini
- Baru setahun lalu benchmark ini masih ada di kisaran 1~10%, dan sekarang hampir sampai level yang bisa disebut setara AGI, rasanya sulit dipercaya
- Kenaikan skor ARC-AGI memang menarik, tetapi berlebihan jika ini dianggap sebagai lompatan dalam ‘kecerdasan umum’
  Saya bercanda bahwa huruf G di ARC-AGI itu berarti ‘graphical’. Selama ini model lemah dalam spatial reasoning, dan kali ini tampaknya itu berhasil diatasi
  Saya berharap di ARC-AGI 3 akan ditambahkan tugas bergaya game berbasis trial-and-error
- Jika melihat leaderboard ARC Prize, saat ini biayanya sekitar $13.62 per tugas
  Secara realistis, mungkin masih butuh 5~10 tahun lagi sampai biaya eksekusinya masuk akal
  Namun saya juga bertanya-tanya apakah model ini overfit terhadap benchmark tersebut
- Untuk perbandingan yang adil, seharusnya dibandingkan dengan model sekelas seperti GPT-5.x Pro
Kecepatan rilis model terasa semakin tidak normal
Hari ini saja ada Gemini 3 Deep Think dan GPT 5.3 Codex Spark, lalu beberapa hari lalu ada Opus 4.6, GLM5, dan MiniMax M2.5
- Sepertinya musim Tahun Baru Imlek di Tiongkok ikut berpengaruh
  Laboratorium riset Tiongkok merilis model pada periode ini, dan lab AS tampaknya buru-buru merilis model yang lebih kuat agar tidak terkena dampak seperti DeepSeek R1 (20 Januari 2025)
- Sekarang jenis model terlalu banyak sampai sulit dibedakan
  Gemini 3 Deep Think tampaknya bukan model yang sepenuhnya baru, melainkan versi Gemini 3 Pro yang ditambahi fitur penalaran (subagent)
  Karena juga bisa dihubungkan ke framework agen eksternal seperti OpenClaw, perdebatan soal ‘agent workflow’ tampaknya agak dibesar-besarkan
- Beberapa minggu terakhir benar-benar merupakan siklus rilis yang eksplosif
- Kalau diringkas satu kalimat: Fast takeoff
Google benar-benar sedang unggul jauh
Orang-orang mengira mereka tertinggal, tetapi justru itu ternyata strategi terbaik
- Modelnya mengesankan, tetapi kualitas produknya buruk sekali
  Saya memakai Gemini web/CLI selama dua bulan, dan model ini kehilangan konteks di tengah percakapan; saat ditanya soal peningkatan kualitas udara, ia malah memberi daftar pembersih udara tanpa konteks
  Bahkan kadang mengutip situs propaganda Rusia atau tiba-tiba berganti ke bahasa Tionghoa di tengah kalimat
  Dengan kualitas seperti ini, biaya 20 euro per bulan terasa tidak masuk akal
- Google di masa normal itu lambat dan birokratis, tetapi Google dalam mode perang bekerja dengan kecepatan yang mengejutkan
- OpenAI mungkin akan merilis sesuatu lagi beberapa jam lagi, jadi persaingannya menyenangkan untuk diikuti
  Orang-orang yang dulu bilang ARC-AGI-2 adalah batas LLM sekarang mungkin akan kembali mengubah standarnya
  Sebagian besar usaha manusia tampaknya akan dipakai untuk membuktikan bahwa “AI masih belum AGI”
- Namun untuk kegunaan di dunia nyata, Google masih tertinggal
  Gemini 3 Pro masih punya banyak masalah
Saya sedang memakai Gemini 3 Pro untuk proyek digitalisasi dokumen sejarah
Saya memindai notulen rapat tulisan tangan berbahasa Jerman dari 1885~1974, lalu mentranskripsikan dan menerjemahkannya satu halaman demi satu
Sekitar 2.370 halaman sudah diproses, dengan akurasi 95% dan biaya API sekitar $50
Tetap perlu verifikasi manual, tetapi penghematan waktunya luar biasa besar
- Mungkin satu kali pass saja sudah cukup, jadi setelah verifikasi perlu dievaluasi lagi efisiensi keseluruhannya
Menurut intuisi saya, model saat ini berada di tiga spektrum
tanpa berpikir, berpikir, dan tipe best-of-N (Deep Think, GPT Pro)
Kompleksitas komputasinya masing-masing meningkat kira-kira secara linear, kuadratik, dan kubik
Tipe berpikir dapat menyelesaikan masalah yang memerlukan penulisan scratchpad
- Tahap berikutnya sepertinya adalah agent swarm
  Model manajer menerima prompt, lalu membuat banyak sub-agen untuk mencoba secara paralel, kemudian mengevaluasi dan mendistribusikan ulang hasilnya
- Pada model best-of-N, kuncinya adalah pemanfaatan konteks panjang
  Sejak versi 2.5, Google cukup baik dalam menangani konteks panjang secara nyata
  Konsep pass@N juga menarik, cocok untuk tugas pencarian yang menukar waktu dengan uang seperti pencarian celah keamanan atau masalah optimisasi
- Untuk pertanyaan apakah model besar tanpa berpikir bisa menyamai performa model kecil yang berpikir, model-model Anthropic adalah contoh yang bagus
  Di gambar ini, Opus 4.6 menunjukkan performa tinggi bahkan tanpa proses berpikir
PDF metodologi evaluasi untuk semua benchmark ada di sini
Skor ARC-AGI-2 sebesar 84.6% didasarkan pada semi-private set,
dan jika melampaui 85% pada private set maka akan dianggap “solved” dan diberikan hadiah $700K
Lihat panduan ARC Prize
- Melihat judul dokumennya tertulis “Gemini 3.1 Pro”, sepertinya versi baru akan segera keluar
- Namun rasanya akan sulit melampaui 85% di private set. Itu bisa berarti ada kebocoran data
Perkembangan model belakangan ini terlalu cepat, sampai saya merasa pekerjaan saya bisa hilang dalam 3~5 tahun
Sekarang rasanya LLM sudah masuk tahap memperbaiki dirinya sendiri
Sayang tidak ada di OpenRouter
Belakangan ini model-model Deep Think papan atas dibatasi hanya bisa dipakai di platform milik mereka sendiri
- OpenRouter memang bagus, tetapi litellm lebih rapi karena hanya berupa library Python sederhana
  Lihat dokumentasi litellm
- Namun sekarang terasa seperti masa keemasan (golden age) itu sudah berakhir
Gemini selalu terasa seperti model yang kaya pengetahuan tetapi kurang fleksibel
Untuk permintaan di luar skrip, model ini mudah goyah
- Sebenarnya pengalaman seperti ini bisa jadi masalah adaptasi pengguna
  Karena saya sudah lama memakai model Google, saya justru merasa model OpenAI jauh lebih buruk
  Sebaliknya, pengguna OpenAI juga mungkin merasa model merekalah yang terbaik karena alasan yang sama
- Dalam beberapa hal, Gemini terasa seperti model yang berpikir dengan caranya sendiri
  Saya belum sempat mengujinya, tetapi mungkin kemampuan mengikuti instruksi sudah membaik
Perkembangan model benar-benar mengejutkan karena terlalu cepat
Saya kira kita akan segera mentok, tetapi model-model baru justru menghancurkan benchmark yang ada
- Namun karena perusahaan-perusahaan terlalu fokus pada optimisasi skor benchmark, korelasinya dengan performa nyata justru makin berkurang

Gemini 3 Deep Think diperkenalkan

Ikhtisar utama Gemini 3 Deep Think

Contoh penggunaan awal

Peningkatan presisi matematis dan algoritmik

Menjelajahi ranah sains yang kompleks

Mempercepat rekayasa di dunia nyata

Akses dan penggunaan

Bacaan terkait

1 komentar

Komentar Hacker News