7 poin oleh GN⁺ 2026-02-13 | 1 komentar | Bagikan ke WhatsApp
  • Model AI Google Gemini 3 Deep Think, yang ditujukan untuk pemecahan masalah sains, riset, dan rekayasa, telah menerima peningkatan besar
  • Versi baru dirancang melalui kolaborasi dengan ilmuwan dan peneliti agar mampu menangani masalah kompleks dengan data yang tidak lengkap atau tanpa jawaban benar yang jelas
  • Mencapai performa setara medali emas di berbagai olimpiade internasional dan benchmark dalam bidang matematika, pemrograman, fisika, dan kimia
  • Mendukung riset nyata dan aplikasi rekayasa, serta menawarkan fungsi praktis seperti membuat model yang dapat dicetak 3D dari sketsa
  • Tersedia bagi pelanggan Google AI Ultra dan melalui program akses awal Gemini API, dengan rencana perluasan untuk peneliti dan perusahaan

Ikhtisar utama Gemini 3 Deep Think

  • Gemini 3 Deep Think adalah mode penalaran khusus yang dirancang untuk menyelesaikan tantangan modern di bidang sains, riset, dan rekayasa
    • Google bekerja sama erat dengan ilmuwan dan peneliti untuk memperkuat kemampuannya dalam menangani masalah yang tidak memiliki jawaban pasti atau memiliki data yang tidak lengkap
    • Dengan menggabungkan pengetahuan teoretis dan kegunaan praktis dalam rekayasa, model ini berkembang menjadi model yang berfokus pada aplikasi nyata
  • Peningkatan kali ini tersedia bagi pelanggan Google AI Ultra melalui aplikasi Gemini, dan peneliti, insinyur, serta perusahaan dapat mengajukan akses awal melalui Gemini API

Contoh penggunaan awal

  • Lisa Carbone, matematikawan dari Rutgers University, menggunakan Deep Think untuk meninjau makalah matematika terkait fisika energi tinggi dan menemukan kesalahan logika yang lolos dari tinjauan manusia
  • Wang Lab dari Duke University mengoptimalkan proses pertumbuhan kristal yang kompleks untuk eksplorasi material semikonduktor, dan merancang resep pertumbuhan film tipis di atas 100μm
  • Anupam Pathak dari divisi Google Platforms & Devices menguji Deep Think untuk mempercepat perancangan komponen fisik

Peningkatan presisi matematis dan algoritmik

  • Deep Think mencatat hasil setara medali emas di International Mathematical Olympiad dan International Collegiate Programming Contest
  • Versi terbaru mencapai skor tertinggi pada benchmark akademik berikut
    • Humanity’s Last Exam: 48.4% (tanpa penggunaan alat)
    • ARC-AGI-2: 84.6% (diverifikasi oleh ARC Prize Foundation)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: performa setara medali emas
  • Deep Think juga digunakan dalam pengembangan agen khusus yang melakukan eksplorasi matematis

Menjelajahi ranah sains yang kompleks

  • Melampaui matematika dan pemrograman, performanya juga meningkat di kimia, fisika, dan sains secara umum
    • Pada bagian tertulis International Physics Olympiad dan International Chemistry Olympiad 2025, model ini mencapai hasil setara medali emas
    • Pada benchmark fisika teoretis CMT-Benchmark, model ini mencatat skor 50.5%
  • Performa ini membuktikan perluasan kemampuan penalaran ilmiah Deep Think

Mempercepat rekayasa di dunia nyata

  • Deep Think mendukung interpretasi data yang kompleks dan pemodelan sistem fisik, dengan tujuan digunakan dalam pekerjaan nyata para peneliti dan insinyur
  • Melalui Gemini API, akses dalam lingkungan riset nyata sedang diperluas
  • Sebagai contoh, pengguna dapat memasukkan sketsa untuk membuat model yang dapat dicetak 3D, dan Deep Think akan melakukan analisis, pemodelan, hingga pembuatan file

Akses dan penggunaan

  • Pelanggan Google AI Ultra dapat langsung menggunakan Deep Think di aplikasi Gemini
  • Peneliti, insinyur, dan perusahaan dapat mendaftar untuk mengikuti program akses awal melalui Gemini API
  • Google berharap Deep Think dapat mendorong meluasnya penemuan ilmiah dan contoh penerapan baru

1 komentar

 
GN⁺ 2026-02-13
Komentar Hacker News
  • Skor Arc-AGI-2 mencapai 84.6%, cukup mengejutkan
    Di postingan blog resmi ada detail tentang Gemini 3 Deep Think

    • Sejak dulu saya merasa Gemini 3 itu sangat serbabisa (general) sampai sulit dipercaya
      Hanya dengan penjelasan teks, model ini bisa menang di Balatro (ante 8). Bagi manusia ini tidak terlalu sulit, tetapi mengejutkan bahwa LLM bisa melakukannya tanpa pelatihan khusus
      Saya mengujinya di Balatro Bench, dan Deepseek sama sekali tidak bisa memainkan game ini
    • Baru setahun lalu benchmark ini masih ada di kisaran 1~10%, dan sekarang hampir sampai level yang bisa disebut setara AGI, rasanya sulit dipercaya
    • Kenaikan skor ARC-AGI memang menarik, tetapi berlebihan jika ini dianggap sebagai lompatan dalam ‘kecerdasan umum’
      Saya bercanda bahwa huruf G di ARC-AGI itu berarti ‘graphical’. Selama ini model lemah dalam spatial reasoning, dan kali ini tampaknya itu berhasil diatasi
      Saya berharap di ARC-AGI 3 akan ditambahkan tugas bergaya game berbasis trial-and-error
    • Jika melihat leaderboard ARC Prize, saat ini biayanya sekitar $13.62 per tugas
      Secara realistis, mungkin masih butuh 5~10 tahun lagi sampai biaya eksekusinya masuk akal
      Namun saya juga bertanya-tanya apakah model ini overfit terhadap benchmark tersebut
    • Untuk perbandingan yang adil, seharusnya dibandingkan dengan model sekelas seperti GPT-5.x Pro
  • Kecepatan rilis model terasa semakin tidak normal
    Hari ini saja ada Gemini 3 Deep Think dan GPT 5.3 Codex Spark, lalu beberapa hari lalu ada Opus 4.6, GLM5, dan MiniMax M2.5

    • Sepertinya musim Tahun Baru Imlek di Tiongkok ikut berpengaruh
      Laboratorium riset Tiongkok merilis model pada periode ini, dan lab AS tampaknya buru-buru merilis model yang lebih kuat agar tidak terkena dampak seperti DeepSeek R1 (20 Januari 2025)
    • Sekarang jenis model terlalu banyak sampai sulit dibedakan
      Gemini 3 Deep Think tampaknya bukan model yang sepenuhnya baru, melainkan versi Gemini 3 Pro yang ditambahi fitur penalaran (subagent)
      Karena juga bisa dihubungkan ke framework agen eksternal seperti OpenClaw, perdebatan soal ‘agent workflow’ tampaknya agak dibesar-besarkan
    • Beberapa minggu terakhir benar-benar merupakan siklus rilis yang eksplosif
    • Kalau diringkas satu kalimat: Fast takeoff
  • Google benar-benar sedang unggul jauh
    Orang-orang mengira mereka tertinggal, tetapi justru itu ternyata strategi terbaik

    • Modelnya mengesankan, tetapi kualitas produknya buruk sekali
      Saya memakai Gemini web/CLI selama dua bulan, dan model ini kehilangan konteks di tengah percakapan; saat ditanya soal peningkatan kualitas udara, ia malah memberi daftar pembersih udara tanpa konteks
      Bahkan kadang mengutip situs propaganda Rusia atau tiba-tiba berganti ke bahasa Tionghoa di tengah kalimat
      Dengan kualitas seperti ini, biaya 20 euro per bulan terasa tidak masuk akal
    • Google di masa normal itu lambat dan birokratis, tetapi Google dalam mode perang bekerja dengan kecepatan yang mengejutkan
    • OpenAI mungkin akan merilis sesuatu lagi beberapa jam lagi, jadi persaingannya menyenangkan untuk diikuti
      Orang-orang yang dulu bilang ARC-AGI-2 adalah batas LLM sekarang mungkin akan kembali mengubah standarnya
      Sebagian besar usaha manusia tampaknya akan dipakai untuk membuktikan bahwa “AI masih belum AGI”
    • Namun untuk kegunaan di dunia nyata, Google masih tertinggal
      Gemini 3 Pro masih punya banyak masalah
  • Saya sedang memakai Gemini 3 Pro untuk proyek digitalisasi dokumen sejarah
    Saya memindai notulen rapat tulisan tangan berbahasa Jerman dari 1885~1974, lalu mentranskripsikan dan menerjemahkannya satu halaman demi satu
    Sekitar 2.370 halaman sudah diproses, dengan akurasi 95% dan biaya API sekitar $50
    Tetap perlu verifikasi manual, tetapi penghematan waktunya luar biasa besar

    • Mungkin satu kali pass saja sudah cukup, jadi setelah verifikasi perlu dievaluasi lagi efisiensi keseluruhannya
  • Menurut intuisi saya, model saat ini berada di tiga spektrum
    tanpa berpikir, berpikir, dan tipe best-of-N (Deep Think, GPT Pro)
    Kompleksitas komputasinya masing-masing meningkat kira-kira secara linear, kuadratik, dan kubik
    Tipe berpikir dapat menyelesaikan masalah yang memerlukan penulisan scratchpad

    • Tahap berikutnya sepertinya adalah agent swarm
      Model manajer menerima prompt, lalu membuat banyak sub-agen untuk mencoba secara paralel, kemudian mengevaluasi dan mendistribusikan ulang hasilnya
    • Pada model best-of-N, kuncinya adalah pemanfaatan konteks panjang
      Sejak versi 2.5, Google cukup baik dalam menangani konteks panjang secara nyata
      Konsep pass@N juga menarik, cocok untuk tugas pencarian yang menukar waktu dengan uang seperti pencarian celah keamanan atau masalah optimisasi
    • Untuk pertanyaan apakah model besar tanpa berpikir bisa menyamai performa model kecil yang berpikir, model-model Anthropic adalah contoh yang bagus
      Di gambar ini, Opus 4.6 menunjukkan performa tinggi bahkan tanpa proses berpikir
  • PDF metodologi evaluasi untuk semua benchmark ada di sini
    Skor ARC-AGI-2 sebesar 84.6% didasarkan pada semi-private set,
    dan jika melampaui 85% pada private set maka akan dianggap “solved” dan diberikan hadiah $700K
    Lihat panduan ARC Prize

    • Melihat judul dokumennya tertulis “Gemini 3.1 Pro”, sepertinya versi baru akan segera keluar
    • Namun rasanya akan sulit melampaui 85% di private set. Itu bisa berarti ada kebocoran data
  • Perkembangan model belakangan ini terlalu cepat, sampai saya merasa pekerjaan saya bisa hilang dalam 3~5 tahun
    Sekarang rasanya LLM sudah masuk tahap memperbaiki dirinya sendiri

  • Sayang tidak ada di OpenRouter
    Belakangan ini model-model Deep Think papan atas dibatasi hanya bisa dipakai di platform milik mereka sendiri

    • OpenRouter memang bagus, tetapi litellm lebih rapi karena hanya berupa library Python sederhana
      Lihat dokumentasi litellm
    • Namun sekarang terasa seperti masa keemasan (golden age) itu sudah berakhir
  • Gemini selalu terasa seperti model yang kaya pengetahuan tetapi kurang fleksibel
    Untuk permintaan di luar skrip, model ini mudah goyah

    • Sebenarnya pengalaman seperti ini bisa jadi masalah adaptasi pengguna
      Karena saya sudah lama memakai model Google, saya justru merasa model OpenAI jauh lebih buruk
      Sebaliknya, pengguna OpenAI juga mungkin merasa model merekalah yang terbaik karena alasan yang sama
    • Dalam beberapa hal, Gemini terasa seperti model yang berpikir dengan caranya sendiri
      Saya belum sempat mengujinya, tetapi mungkin kemampuan mengikuti instruksi sudah membaik
  • Perkembangan model benar-benar mengejutkan karena terlalu cepat
    Saya kira kita akan segera mentok, tetapi model-model baru justru menghancurkan benchmark yang ada

    • Namun karena perusahaan-perusahaan terlalu fokus pada optimisasi skor benchmark, korelasinya dengan performa nyata justru makin berkurang