2 poin oleh GN⁺ 2025-08-02 | 1 komentar | Bagikan ke WhatsApp
  • Gemini 2.5 Deep Think kini tersedia untuk pelanggan Google AI Ultra saja di aplikasi Gemini
  • Diperkenalkan dengan teknik berpikir paralel (parallel thinking) dan temuan penelitian terbaru, disempurnakan agar lebih cocok untuk penggunaan nyata berdasarkan model yang meraih medali emas di IMO
  • Menunjukkan kinerja unggul dalam berbagai tugas kompleks seperti pemecahan masalah kreatif, penalaran matematika dan ilmiah, dan pengembangan algoritme
  • Untuk meningkatkan performa, waktu penalaran (Thinking Time) ditingkatkan agar dapat mengeksplorasi beragam ide dan solusi secara bersamaan, lalu menghasilkan pemikiran yang lebih dalam dan output yang lebih kreatif
  • Untuk pengembangan AI yang aman dan bertanggung jawab, dilakukan evaluasi dan tindakan yang diperkuat, serta diberikan rencana perluasan pemanfaatan API dan enterprise di masa depan

Peluncuran Gemini 2.5 Deep Think

  • Fitur Gemini 2.5 Deep Think disediakan untuk pelanggan Google AI Ultra melalui aplikasi Gemini
  • Versi ini menggabungkan umpan balik dari penguji dan peneliti tepercaya serta hasil riset terbaru
  • Berbasis pada model tingkat medali emas dari Olimpiade Matematika Internasional (IMO) terbaru, kecepatannya dan utilitas praktisnya ditingkatkan agar sesuai dengan pengalaman pengguna nyata
  • Dengan pengumuman ini, potensi sebagai alat pemecahan masalah kreatif diperluas, dan direncanakan penyempurnaan fitur berdasarkan umpan balik dari matematikawan dan peneliti

Cara kerja Deep Think

  • Menerapkan teknik berpikir paralel, Gemini mengeksplorasi, membandingkan, dan menggabungkan secara bersamaan berbagai ide dan solusi terhadap masalah kompleks
  • Waktu penalaran (Thinking Time) pada model ditingkatkan, sehingga memungkinkan penelusuran lebih mendalam terhadap banyak hipotesis untuk menemukan solusi yang lebih kreatif
  • Melalui pembelajaran penguatan, model dilatih untuk memanfaatkan secara aktif jalur penalaran yang diperluas ini, memperkuat kemampuan pemecahan masalah yang lebih intuitif dan mendalam

Performa dan area penggunaan utama Deep Think

  • Pengembangan dan desain bertahap: Menunjukkan kinerja tinggi dalam tugas mengembangkan sistem atau desain kompleks secara bertahap
  • Penemuan ilmiah dan matematis: Memiliki keunggulan pada eksplorasi kreatif yang menuntut tingkat tinggi, seperti penalaran matematika dan interpretasi makalah ilmiah
  • Pengembangan algoritme dan kode: Mencapai performa mutakhir pada masalah pengkodean yang sulit yang membutuhkan pemodelan masalah, kompleksitas waktu, dan pertimbangan trade-off
  • Di benchmark terbaru (misalnya LiveCodeBench V6, Humanity's Last Exam), berhasil membuktikan kinerja puncak dalam bidang kode/pengetahuan/penalaran dibandingkan model sebelumnya

Pengembangan bertanggung jawab dan keamanan Gemini

  • Gemini 2.5 Deep Think menunjukkan keamanan konten dan tonalitas objektif yang lebih baik dari model Pro sebelumnya dalam evaluasi keselamatan
  • Seiring meningkatnya kompleksitas, risiko juga dievaluasi, dan penilaian Frontier Safety serta tindakan mitigasi yang diperlukan diperkuat
  • Hasil detail keselamatan dapat dilihat di model card

Cara menggunakan Deep Think

  • Pelanggan Google AI Ultra dapat menggunakannya dengan jumlah terbatas per hari di aplikasi Gemini dengan memilih 2.5 Pro dari dropdown model, lalu mengaktifkan toggle Deep Think di bilah prompt
  • Terintegrasi secara otomatis dengan alat seperti eksekusi kode, Google Search, dan lain-lain, sehingga memungkinkan pembuatan jawaban yang jauh lebih panjang
  • Pengujian tambahan untuk API dan enterprise Gemini akan segera dilaksanakan

1 komentar

 
GN⁺ 2025-08-02
Komentar Hacker News
  • Saya mencoba agent Deep Think yang baru, tetapi baru memasukkan lima prompt saja sudah mencapai batas penggunaan harian. Kalau layanannya seperti ini dengan membayar $250 per bulan, rasanya cukup mengecewakan. Daya saing harganya jelas kalah dibanding o3-pro atau Grok 4 Heavy. Di komunitas AI, fitur ini sempat menarik perhatian sebagai satu-satunya bagian yang setidaknya bisa membenarkan harga langganan Google Ultra. Namun Google justru memberikan model terbaiknya secara gratis di AI Studio, sementara pelanggan Ultra yang benar-benar membayar dikenai kebijakan seperti ini, jadi sulit dipahami. Dari sisi performa, saat saya memasukkan situasi masalah bisnis yang kompleks, ia memberikan solusi yang jelas dan meyakinkan, dan jawabannya sejalan dengan hasil rapat internal kami. Tapi pada akhirnya, o3 juga memberikan kesimpulan serupa dengan harga jauh lebih murah. Hanya saja, laporan dari o3 terasa sedikit kurang rapi. Mungkin perlu dipakai lebih lama untuk benar-benar tahu

    • Mungkin ini belum benar-benar siap dikomersialkan sepenuhnya atau dioptimalkan, tetapi bisa jadi strateginya adalah merilisnya sebelum EU AI Act pada 2 Agustus dan lalu menyesuaikan standar selama dua tahun. Karena itu, saya rasa sangat mungkin mereka merilisnya lebih dulu ke sebagian kecil pengguna sambil menerapkan batas penggunaan yang ketat
    • Saya penasaran dengan performa Deep Think pada pekerjaan yang memerlukan context besar. Parallel thinking bisa sangat berguna untuk jenis masalah tertentu, jadi saya ingin menguji apakah ia bisa menangani lebih banyak konteks yang tidak bisa sepenuhnya ditangani oleh chain of thought tradisional
    • Bertahun-tahun lalu, ukuran kemampuan coding adalah bisa menyelesaikan sesuatu tanpa mencari di internet, atau membiasakan diri memposting pertanyaan yang rapi di tempat seperti StackOverflow lalu menjawabnya sendiri. Kadang ada komentar seperti “Saya tersesat selama 3 hari dan jawaban ini menyelamatkan hidup saya”, dan rasanya sangat membanggakan. Minggu ini saya terus mengerjakan masalah yang sulit, tetapi model AI ala Copilot hampir tidak membantu. Dalam coding, kemampuan baru benar-benar terasa ketika tak ada siapa pun yang bisa membantu, bahkan AI, dan kita sendiri harus melakukan generalisasi, sintesis, serta melahirkan ide kreatif. Jadi saya sedikit menghibur diri bahwa masih butuh waktu sebelum AI coding agent benar-benar menggantikan semuanya
    • Saya sudah mencoba Grok 4 dan 4 Heavy, dan menurut pengalaman saya keduanya benar-benar buruk. Sebanyak apa pun kueri yang bisa dimasukkan, tidak ada gunanya kalau jawabannya jelek. Itu pembelanjaan terburuk saya untuk LLM tahun ini. Saya sudah cukup banyak berinvestasi di berbagai AI, tetapi uang untuk Grok yang paling saya sesalkan
    • Saya sering terkejut melihat Google memberikan model paling canggihnya secara gratis di AI Studio, tetapi hanya memberi sedikit sekali manfaat kepada pelanggan sebenarnya. Tapi di sisi lain, ini juga tidak terlalu mengejutkan. Mungkin Google tidak mendapat margin besar dari pelanggan AI Ultra, dan data pengguna dalam jumlah besar dari free tier AI Studio lebih penting bagi mereka. Dengan membuka model terbaik secara gratis, mereka bisa dengan mudah merebut pangsa pasar dari pengguna dengan tuntutan tertinggi. Lalu di kemudian hari mereka bisa menerapkan kebijakan monetisasi pada mereka, dan ini juga strategi yang bagus untuk memanfaatkan server menganggur yang saat ini dimiliki Google
  • Teman-teman, ini hasil ketika saya memberi prompt ke Gemini Deep Think: “tolong gambar gambar SVG pelikan yang sedang naik sepeda” https://www.svgviewer.dev/s/5R5iTexQ Saya melakukannya lebih dulu daripada Simon Willison!

    • Apa pun yang jadi meme di HN pada akhirnya memang ditakdirkan masuk ke data pelatihan. Lucu juga membayangkan ada satu intern di tiap perusahaan AI yang berkeringat sambil menggambar SVG pelikan keren
    • Baru saja saya lihat hasilnya, saya terkejut karena memang jelas terlihat seperti pelikan, lumayan bagus
    • Benchmark meme seperti ini, misalnya gambar stroberi, memang lucu, tetapi sekarang terlalu banyak masuk ke pelatihan model sehingga jadi ukuran yang mudah dimanipulasi
    • Rasanya ini benar-benar nilai yang membuat kita merasa hidup di masa depan
    • Jujur, ini pertama kalinya saya merasa bisa menebak “ya, itu memang pelikan yang sedang naik sepeda” hanya dari melihat SVG-nya tanpa prompt. Kasus menara vokal juga mengesankan. Dalam hal persepsi visual/spasial, menurut saya ini pencapaian yang cukup berarti
  • Kalau ingin menjalankannya sendiri, Anda bisa memakai LLM cli milik simonw dan plugin llm-consortiumKeunggulan 1: bisa bebas menggabungkan berbagai model. Bisa diatur dengan kombinasi apa pun tanpa peduli laboratoriumnyaKeunggulan 2: dengan plugin llm-model-gateway, bisa langsung dihubungkan sekaligus ke app atau alat kolaborasi coding saya lewat API lokal https://x.com/karpathy/status/1870692546969735361
    Dia juga menuliskan sendiri instalasi dan contoh perintah, bahkan contoh bahwa consortium of consortium juga bisa dibuat.
    https://GitHub.com/irthomasthomas/llm-consortium

    • Saya penasaran kenapa ini disebut versi lokal dari Gemini Deep Think. Struktur multi-agent bisa diimplementasikan dengan banyak cara, bukan? Selain itu, karena covariance di antara banyak model bisa menyinkronkan kesalahan, saya rasa optimalisasi performa penting dilakukan dengan menjaga akurasi individual sambil menurunkan korelasi kesalahan lewat beragam kombinasi struktur. Saya ingin menguji ini pada benchmark yang punya banyak solusi
    • Saya penasaran apakah Uni Eropa adalah consortium of consortiums
    • Ada yang meminta tolong diberi tahu kalau ada plugin OpenWebUI yang mendukung fungsi seperti ini
    • Disebutkan bahwa perintah llm serve tidak terlihat
  • Ini bukan model yang meraih medali emas di IMO beberapa minggu lalu, tetapi kerabat dekat yang hampir setara https://x.com/OfficialLoganK/status/1951262261512659430 Saat ini belum tersedia lewat API

  • Pendekatan kali ini mirip dengan Grok 4 Heavy: menjalankan beberapa agent ‘penalaran’ secara paralel, lalu membandingkan jawaban mereka dan memilih yang terbaik, dengan waktu sekitar 30 menit. Hasilnya memang luar biasa, tetapi sebenarnya perbandingan benchmark yang adil seharusnya memakai Grok 4 Heavy, bukan Grok 4 yang single-agent dan lebih cepat

    • Jika daya komputasi penalaran yang sama didistribusikan ke beberapa agent, hasilnya lebih baik. Masalah “semakin lama berpikir, jawabannya malah makin buruk” juga bisa diatasi dengan melakukan banyak jalur pemikiran pendek secara paralel
    • Dalam artikel disebutkan bahwa Deep Think mencapai jawaban akhir dengan cara menghasilkan, mempertimbangkan, menggabungkan, dan merevisi berbagai ide sekaligus melalui pendekatan berpikir paralel. Dari penjelasan ini, menurut saya masih belum jelas apakah mereka memakai multi-agent, jadi masih terbuka untuk berbagai interpretasi
    • Grok-4 heavy punya keterbatasan untuk dibandingkan langsung karena ia memakai tool untuk menyelesaikan banyak soal benchmark dengan mudah
    • Saya penasaran bagaimana pendekatan Google berbeda dari Mixture of Experts. Dalam Mixture of Experts, tiap expert memang dilatih dengan bobot berbeda, sedangkan di sini keragaman pemikiran diperoleh hanya lewat pengaturan temperature. Saya ingin tahu apakah ada paper yang membandingkan secara tepat mana yang lebih baik antara menjalankan model yang sama berkali-kali untuk memperoleh variasi ide, atau menjalankan beberapa model berbeda dengan arsitektur/bobot yang memang berbeda secara bersamaan
    • Agak mengejutkan bahwa belum ada aplikasi yang menjalankan LLM utama semacam mode battle royale di satu tempat lalu memilih jawaban akhirnya
  • OpenAI menaikkan harga ke $200, Anthropic ke $100 dan $200, Gemini ke $250, dan Grok sampai $300. Hanya OpenAI yang menyebut “praktis tanpa batas”, dan saya memang belum pernah mencapai batas di paket ChatGPT Pro. Sebaliknya, untuk Claude Max saya sudah beberapa kali terkena batas. Jadi saya penasaran kenapa perusahaan-perusahaan seperti ini tidak mengungkapkan batasnya dengan jelas

    • Tujuannya adalah penagihan ganda. Kalau harganya adil, mereka tinggal menampilkan biaya per kueri berdasarkan token, sehingga kita cukup membayar sesuai pemakaian. Namun perusahaan menginginkan pemasukan tetap yang rutin, dan pada saat yang sama ingin meminimalkan penggunaan nyata, jadi mereka menjualnya seolah-olah tak terbatas secara bulanan atau tahunan. Akhirnya, strukturnya membuat kita membayar lebih mahal daripada penggunaan aktual
    • Alasan sebenarnya mereka tidak mengungkap batas di awal adalah supaya perusahaan bisa menyesuaikannya secara fleksibel sesuai kondisi pasar atau beban infrastruktur. Seperti saat ledakan pembuatan gambar ChatGPT dulu, ketika trafik tiba-tiba memuncak mereka bisa memasang batas, lalu melonggarkannya lagi saat sedang longgar seperti sekarang
    • Kalau batas dibuat transparan, pengguna akan mulai mencari celah agar pas dengan batas itu, dan akhirnya batas untuk semua orang justru makin dikurangi. Jadi secara praktis, tidak mengungkapkannya justru pilihan yang lebih baik bagi kebanyakan orang
  • Dalam beberapa bulan terakhir saya memakai Gemini, dan rasanya justru makin memburuk. Hallucination terlalu sering muncul, dan bahkan ketika itu ditunjukkan, AI-nya tetap keras kepala. Jadi makin sulit dipercaya

    • Menurut pengalaman saya, Flash justru makin membaik. Walaupun saya membayar Pro, saya lebih sering memakai Flash. Saya kecewa dengan Pro karena sering hanya mengulang data pelatihan lama tanpa benar-benar mencari informasi terbaru, tetapi Flash hampir tidak punya masalah ini. Untuk coding saya memakai Pro lewat Gemini CLI, dan kemampuannya luar biasa bukan hanya untuk menulis kode, tetapi juga menyusun dokumen desain, memecah tugas mingguan, dan mengelola jadwal. Kalau diberi struktur yang sistematis seperti ini, rasanya ia juga bisa menjaga konteksnya sendiri
    • Pengalaman saya juga mirip. Saya sudah tidak lagi memakai Gemini Pro. Terlalu bertele-tele dan isinya sering kontradiktif. Claude Sonnet 4 menjawab dengan baik. Belakangan rasanya jarak kemampuan Sonnet dengan Opus makin mengecil. Sejak sistem kuota baru diperkenalkan, saya jadi memakai Sonnet lebih dulu. Sekarang pun, dibanding Opus, ia bisa menyelesaikan sebagian besar masalah yang sulit atau kompleks dengan baik. Beberapa bulan lalu saya belum merasakan sampai seperti ini
    • Saya juga merasa Gemini makin lama makin buruk. Hanya saja, sulit mengukurnya secara angka lewat benchmark seperti fiction.livebench. Saya penasaran apakah modelnya sedang dikuantisasi secara agresif sehingga menurunkan performa, atau memang ekspektasi kita yang terus naik
    • Saya ingin bertanya apakah ini terutama masalah integrasi tool, dan apakah dipakai di AI studio atau lewat API. Dari yang saya alami, ia sering mengarang tool yang sebenarnya tidak tersedia dan terlalu percaya diri pada hasilnya
  • Untuk pelanggan Google AI Ultra, diberi tahu bahwa mulai hari ini mereka bisa memakai fitur Deep Think di aplikasi Gemini dengan jumlah prompt yang sudah ditetapkan. Tetapi saya ingin tahu lebih spesifik apakah “set tetap” itu berarti jumlahnya tetap, atau jenis prompt-nya yang ditentukan

    • Batasnya 10 permintaan per hari. Karena satu prompt memerlukan waktu berpikir sekitar 30 menit, fitur ini lebih cocok untuk riset atau masalah multilapis yang membutuhkan sintesis, bukan coding umum atau menulis fanfic
  • Saat menyusun jadwal dengan Gemini CLI, meskipun saya sudah memberi instruksi dengan jelas berkali-kali agar jangan bertindak seenaknya dan saya sudah ikut campur, ia tetap sering mencoba mengubah hal-hal secara arbitrer dan akhirnya merusak rencana

    • Tool agent seperti ini justru sering menimbulkan kekacauan. Claude Code dari Anthropic populer karena memaksimalkan performa model. Sebaliknya, Gemini CLI malah menurunkan performa asli Gemini Pro 2.5. Karena itu saya sekarang menyerah memakai Gemini CLI sepenuhnya, meskipun gratis. Namun untuk pekerjaan berbasis prompt, ia tetap sangat kuat sehingga masih saya gunakan secara rutin
    • Saya juga mirip. Kalau saya langsung menyerahkan tugas besar yang abstrak ke Gemini CLI, ia terus membuat kesalahan. Sebaliknya, kalau diberi sedikit struktur yang jelas, misalnya memisahkan pembuatan konteks per tahap, hasilnya benar-benar mengejutkan. Pada tahap pertama saya hanya menyuruhnya membaca kode dan menulis dokumen definisi kebutuhan. Setelah itu saya memintanya mendokumentasikan spesifikasi kebutuhan yang rinci, desain API, pseudocode untuk logika yang tricky, dan seterusnya secara bertahap dengan merujuk hasil sebelumnya. Pada tahap terakhir saya menyuruhnya memecah seluruh pengembangan menjadi rencana kerja mingguan, harian, dan per jam, lalu setelah diberi informasi yang cukup, baru menulis kode akhirnya. Kalau mau sepenuhnya otomatis mungkin bisa dengan skrip, tetapi dalam praktiknya lebih efektif kalau manusia tetap meninjau, memberi umpan balik, dan mengulang brainstorming. Sambil menghasilkan lebih dari 90% konteks dengan kemampuannya sendiri, belakangan dengan cara seperti ini ia hampir tidak lagi membuat kesalahan pada sebagian besar kasus