- Model AI Google Gemini 3 Deep Think, yang ditujukan untuk pemecahan masalah sains, riset, dan rekayasa, telah menerima peningkatan besar
- Versi baru dirancang melalui kolaborasi dengan ilmuwan dan peneliti agar mampu menangani masalah kompleks dengan data yang tidak lengkap atau tanpa jawaban benar yang jelas
- Mencapai performa setara medali emas di berbagai olimpiade internasional dan benchmark dalam bidang matematika, pemrograman, fisika, dan kimia
- Mendukung riset nyata dan aplikasi rekayasa, serta menawarkan fungsi praktis seperti membuat model yang dapat dicetak 3D dari sketsa
- Tersedia bagi pelanggan Google AI Ultra dan melalui program akses awal Gemini API, dengan rencana perluasan untuk peneliti dan perusahaan
Ikhtisar utama Gemini 3 Deep Think
- Gemini 3 Deep Think adalah mode penalaran khusus yang dirancang untuk menyelesaikan tantangan modern di bidang sains, riset, dan rekayasa
- Google bekerja sama erat dengan ilmuwan dan peneliti untuk memperkuat kemampuannya dalam menangani masalah yang tidak memiliki jawaban pasti atau memiliki data yang tidak lengkap
- Dengan menggabungkan pengetahuan teoretis dan kegunaan praktis dalam rekayasa, model ini berkembang menjadi model yang berfokus pada aplikasi nyata
- Peningkatan kali ini tersedia bagi pelanggan Google AI Ultra melalui aplikasi Gemini, dan peneliti, insinyur, serta perusahaan dapat mengajukan akses awal melalui Gemini API
Contoh penggunaan awal
- Lisa Carbone, matematikawan dari Rutgers University, menggunakan Deep Think untuk meninjau makalah matematika terkait fisika energi tinggi dan menemukan kesalahan logika yang lolos dari tinjauan manusia
- Wang Lab dari Duke University mengoptimalkan proses pertumbuhan kristal yang kompleks untuk eksplorasi material semikonduktor, dan merancang resep pertumbuhan film tipis di atas 100μm
- Anupam Pathak dari divisi Google Platforms & Devices menguji Deep Think untuk mempercepat perancangan komponen fisik
Peningkatan presisi matematis dan algoritmik
- Deep Think mencatat hasil setara medali emas di International Mathematical Olympiad dan International Collegiate Programming Contest
- Versi terbaru mencapai skor tertinggi pada benchmark akademik berikut
- Humanity’s Last Exam: 48.4% (tanpa penggunaan alat)
- ARC-AGI-2: 84.6% (diverifikasi oleh ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: performa setara medali emas
- Deep Think juga digunakan dalam pengembangan agen khusus yang melakukan eksplorasi matematis
Menjelajahi ranah sains yang kompleks
- Melampaui matematika dan pemrograman, performanya juga meningkat di kimia, fisika, dan sains secara umum
- Pada bagian tertulis International Physics Olympiad dan International Chemistry Olympiad 2025, model ini mencapai hasil setara medali emas
- Pada benchmark fisika teoretis CMT-Benchmark, model ini mencatat skor 50.5%
- Performa ini membuktikan perluasan kemampuan penalaran ilmiah Deep Think
Mempercepat rekayasa di dunia nyata
- Deep Think mendukung interpretasi data yang kompleks dan pemodelan sistem fisik, dengan tujuan digunakan dalam pekerjaan nyata para peneliti dan insinyur
- Melalui Gemini API, akses dalam lingkungan riset nyata sedang diperluas
- Sebagai contoh, pengguna dapat memasukkan sketsa untuk membuat model yang dapat dicetak 3D, dan Deep Think akan melakukan analisis, pemodelan, hingga pembuatan file
Akses dan penggunaan
- Pelanggan Google AI Ultra dapat langsung menggunakan Deep Think di aplikasi Gemini
- Peneliti, insinyur, dan perusahaan dapat mendaftar untuk mengikuti program akses awal melalui Gemini API
- Google berharap Deep Think dapat mendorong meluasnya penemuan ilmiah dan contoh penerapan baru
1 komentar
Komentar Hacker News
Skor Arc-AGI-2 mencapai 84.6%, cukup mengejutkan
Di postingan blog resmi ada detail tentang Gemini 3 Deep Think
Hanya dengan penjelasan teks, model ini bisa menang di Balatro (ante 8). Bagi manusia ini tidak terlalu sulit, tetapi mengejutkan bahwa LLM bisa melakukannya tanpa pelatihan khusus
Saya mengujinya di Balatro Bench, dan Deepseek sama sekali tidak bisa memainkan game ini
Saya bercanda bahwa huruf G di ARC-AGI itu berarti ‘graphical’. Selama ini model lemah dalam spatial reasoning, dan kali ini tampaknya itu berhasil diatasi
Saya berharap di ARC-AGI 3 akan ditambahkan tugas bergaya game berbasis trial-and-error
Secara realistis, mungkin masih butuh 5~10 tahun lagi sampai biaya eksekusinya masuk akal
Namun saya juga bertanya-tanya apakah model ini overfit terhadap benchmark tersebut
Kecepatan rilis model terasa semakin tidak normal
Hari ini saja ada Gemini 3 Deep Think dan GPT 5.3 Codex Spark, lalu beberapa hari lalu ada Opus 4.6, GLM5, dan MiniMax M2.5
Laboratorium riset Tiongkok merilis model pada periode ini, dan lab AS tampaknya buru-buru merilis model yang lebih kuat agar tidak terkena dampak seperti DeepSeek R1 (20 Januari 2025)
Gemini 3 Deep Think tampaknya bukan model yang sepenuhnya baru, melainkan versi Gemini 3 Pro yang ditambahi fitur penalaran (subagent)
Karena juga bisa dihubungkan ke framework agen eksternal seperti OpenClaw, perdebatan soal ‘agent workflow’ tampaknya agak dibesar-besarkan
Google benar-benar sedang unggul jauh
Orang-orang mengira mereka tertinggal, tetapi justru itu ternyata strategi terbaik
Saya memakai Gemini web/CLI selama dua bulan, dan model ini kehilangan konteks di tengah percakapan; saat ditanya soal peningkatan kualitas udara, ia malah memberi daftar pembersih udara tanpa konteks
Bahkan kadang mengutip situs propaganda Rusia atau tiba-tiba berganti ke bahasa Tionghoa di tengah kalimat
Dengan kualitas seperti ini, biaya 20 euro per bulan terasa tidak masuk akal
Orang-orang yang dulu bilang ARC-AGI-2 adalah batas LLM sekarang mungkin akan kembali mengubah standarnya
Sebagian besar usaha manusia tampaknya akan dipakai untuk membuktikan bahwa “AI masih belum AGI”
Gemini 3 Pro masih punya banyak masalah
Saya sedang memakai Gemini 3 Pro untuk proyek digitalisasi dokumen sejarah
Saya memindai notulen rapat tulisan tangan berbahasa Jerman dari 1885~1974, lalu mentranskripsikan dan menerjemahkannya satu halaman demi satu
Sekitar 2.370 halaman sudah diproses, dengan akurasi 95% dan biaya API sekitar $50
Tetap perlu verifikasi manual, tetapi penghematan waktunya luar biasa besar
Menurut intuisi saya, model saat ini berada di tiga spektrum
tanpa berpikir, berpikir, dan tipe best-of-N (Deep Think, GPT Pro)
Kompleksitas komputasinya masing-masing meningkat kira-kira secara linear, kuadratik, dan kubik
Tipe berpikir dapat menyelesaikan masalah yang memerlukan penulisan scratchpad
Model manajer menerima prompt, lalu membuat banyak sub-agen untuk mencoba secara paralel, kemudian mengevaluasi dan mendistribusikan ulang hasilnya
Sejak versi 2.5, Google cukup baik dalam menangani konteks panjang secara nyata
Konsep pass@N juga menarik, cocok untuk tugas pencarian yang menukar waktu dengan uang seperti pencarian celah keamanan atau masalah optimisasi
Di gambar ini, Opus 4.6 menunjukkan performa tinggi bahkan tanpa proses berpikir
PDF metodologi evaluasi untuk semua benchmark ada di sini
Skor ARC-AGI-2 sebesar 84.6% didasarkan pada semi-private set,
dan jika melampaui 85% pada private set maka akan dianggap “solved” dan diberikan hadiah $700K
Lihat panduan ARC Prize
Perkembangan model belakangan ini terlalu cepat, sampai saya merasa pekerjaan saya bisa hilang dalam 3~5 tahun
Sekarang rasanya LLM sudah masuk tahap memperbaiki dirinya sendiri
Sayang tidak ada di OpenRouter
Belakangan ini model-model Deep Think papan atas dibatasi hanya bisa dipakai di platform milik mereka sendiri
Lihat dokumentasi litellm
Gemini selalu terasa seperti model yang kaya pengetahuan tetapi kurang fleksibel
Untuk permintaan di luar skrip, model ini mudah goyah
Karena saya sudah lama memakai model Google, saya justru merasa model OpenAI jauh lebih buruk
Sebaliknya, pengguna OpenAI juga mungkin merasa model merekalah yang terbaik karena alasan yang sama
Saya belum sempat mengujinya, tetapi mungkin kemampuan mengikuti instruksi sudah membaik
Perkembangan model benar-benar mengejutkan karena terlalu cepat
Saya kira kita akan segera mentok, tetapi model-model baru justru menghancurkan benchmark yang ada