19 poin oleh GN⁺ 2025-11-19 | 3 komentar | Bagikan ke WhatsApp
  • Google memperkenalkan Gemini 3, model AI paling cerdasnya, dengan kemampuan penalaran dan pemahaman multimodal yang ditingkatkan
  • Gemini 3 Pro mencatat performa terbaik di semua benchmark utama dibanding generasi sebelumnya, serta mampu memproses beragam input seperti teks, gambar, video, dan kode
  • Mode Deep Think menambahkan kemampuan penalaran tingkat lanjut untuk menyelesaikan masalah kompleks, dan akan dirilis secara bertahap untuk pelanggan Ultra
  • Gemini 3 mendukung pembelajaran, pengembangan, dan perencanaan, serta tersedia di Google Search, aplikasi Gemini, AI Studio, Vertex AI, dan lainnya
  • Melalui Gemini 3, Google mempercepat transisi menuju era agen cerdas dan AI yang dipersonalisasi

Ikhtisar Gemini 3

  • Gemini 3 adalah model AI paling cerdas yang dikembangkan Google, dirancang untuk membantu pengguna mewujudkan ide apa pun
  • Menggabungkan pemahaman multimodal dan agentic coding untuk memproses secara terpadu berbagai input seperti teks, gambar, video, audio, dan kode
  • Gemini 3 Pro dapat digunakan di seluruh ekosistem Google, termasuk AI Studio, Vertex AI, aplikasi Gemini, dan platform Google Antigravity
  • Mode Deep Think mendukung penyelesaian masalah kompleks dengan kemampuan penalaran yang ditingkatkan, dan akan tersedia bagi pelanggan Google AI Ultra

Pesan CEO

  • Sundar Pichai menyebutkan pencapaian dalam dua tahun sejak proyek Gemini dimulai, seperti 2 miliar pengguna bulanan AI Overviews, 650 juta pengguna aplikasi Gemini, dan lebih dari 130 ribu pengembang yang berpartisipasi
  • Struktur inovasi AI full-stack Google (infrastruktur–riset–model–produk) memungkinkan penyebaran teknologi yang cepat
  • Gemini 3 adalah model yang mengintegrasikan kemampuan multimodal, penalaran, dan agen dari generasi sebelumnya, sehingga dapat memahami niat dan konteks pengguna dengan lebih akurat
  • Gemini 3 dirilis secara bersamaan di AI Mode pada Search, aplikasi Gemini, AI Studio, Vertex AI, dan Google Antigravity

Performa Gemini 3 Pro

  • Gemini 3 Pro mencatat performa lebih baik daripada 2.5 Pro di semua benchmark AI utama
    • Mencapai 1501 Elo di leaderboard LMArena, 37.5% di Humanity’s Last Exam, 91.9% di GPQA Diamond, dan 23.4% di MathArena Apex
    • Juga mencatat 81% di benchmark multimodal MMMU-Pro, 87.6% di Video-MMMU, dan 72.1% di SimpleQA Verified
  • Memberikan respons yang akurat dan ringkas, dan dapat digunakan untuk memvisualisasikan konsep ilmiah atau mewujudkan ide kreatif secara konkret
  • Contohnya termasuk membuat kode visualisasi aliran plasma di dalam tokamak dan menulis puisi bertema fisika fusi nuklir

Gemini 3 Deep Think

  • Mode Deep Think semakin memperkuat kemampuan penalaran dan pemahaman multimodal Gemini 3
    • Mencapai performa tingkat tertinggi dengan 41.0% di Humanity’s Last Exam, 93.8% di GPQA Diamond, dan 45.1% di ARC-AGI-2
  • Menunjukkan kemampuan penalaran tingkat lanjut untuk menyelesaikan masalah kompleks dan tantangan baru

Pembelajaran (Learn anything)

  • Gemini 3 mendukung pembelajaran dengan jendela konteks 1 juta token dan penalaran multimodal
    • Menerjemahkan resep tulisan tangan dan membuat buku masak digital
    • Merangkum kuliah panjang atau makalah, lalu membuat flashcard interaktif atau kode visualisasi
    • Membuat rencana latihan yang dipersonalisasi melalui analisis video olahraga
  • AI Mode di Google Search, yang didukung Gemini 3, dapat menghasilkan tata letak visual imersif dan alat interaktif secara real time

Pengembangan (Build anything)

  • Gemini 3 unggul dalam generasi zero-shot dan pemrosesan prompt kompleks, dengan pencapaian 1487 Elo di WebDev Arena
    • Mencapai 54.2% di Terminal-Bench 2.0 dan 76.2% di SWE-bench Verified, meningkatkan kemampuan penggunaan alat dan agen coding
  • Pengembangan dapat dilakukan di Google AI Studio, Vertex AI, Gemini CLI, dan Google Antigravity
  • Juga didukung di platform pihak ketiga seperti Cursor, GitHub, JetBrains, Manus, dan Replit

Google Antigravity: lingkungan pengembangan berpusat pada agen

  • Google Antigravity adalah platform pengembangan agentic berbasis Gemini 3, yang memungkinkan pengembang berkolaborasi dengan AI pada tingkat yang berfokus pada tugas
  • Agen dapat mengakses editor, terminal, dan browser secara langsung untuk menulis, menjalankan, dan memverifikasi kode secara otomatis
  • Mengintegrasikan Gemini 3 Pro dengan model Gemini 2.5 Computer Use dan model pengeditan gambar Nano Banana
  • Sebagai contoh, agen dapat menjalankan alur kerja untuk merancang, menulis kode, dan memverifikasi aplikasi pelacakan penerbangan secara mandiri

Perencanaan (Plan anything)

  • Gemini 3 memperkuat kemampuan perencanaan jangka panjang, dan meraih peringkat 1 di leaderboard Vending-Bench 2
    • Menjaga pengambilan keputusan yang stabil selama satu tahun dalam simulasi pengelolaan bisnis mesin penjual otomatis
  • Memungkinkan otomatisasi tugas multilangkah yang kompleks, seperti merapikan email atau melakukan reservasi layanan
  • Melalui fitur Gemini Agent, pelanggan Ultra dapat mencobanya langsung di aplikasi Gemini

Pengembangan yang bertanggung jawab

  • Gemini 3 adalah model paling aman di antara AI Google, dengan peningkatan pada ketahanan terhadap prompt injection dan kemampuan pertahanan terhadap serangan siber
  • Pengujian internal dan evaluasi oleh pakar eksternal dilakukan sesuai Frontier Safety Framework
    • Lembaga yang berpartisipasi mencakup UK AISI, Apollo, Vaultis, dan Dreadnode
  • Hasil evaluasi keamanan yang lebih rinci dipublikasikan dalam Gemini 3 model card

Awal era Gemini 3

  • Gemini 3 mulai didistribusikan melalui jalur berikut
    • Aplikasi Gemini dan AI Mode di Search
    • Akses pengembang melalui AI Studio, Google Antigravity, dan Gemini CLI
    • Distribusi untuk perusahaan melalui Vertex AI dan Gemini Enterprise
  • Mode Deep Think akan tersedia bagi pelanggan Ultra setelah verifikasi keamanan tambahan
  • Model tambahan dalam seri Gemini 3 akan diumumkan di masa mendatang, dengan rencana ekspansi berdasarkan masukan pengguna

3 komentar

 
t7vonn 2025-11-19

Gila, Gemini memang raja banget

 
GN⁺ 2025-11-19
Komentar Hacker News
  • Saya memasukkan aplikasi kalkulator berbasis XML lama ke Gemini, dan dalam waktu kurang dari satu menit, ia membuat web app yang lengkap
    Saya sendiri pernah membuat compiler yang mengubah XML kustom menjadi aplikasi Android/Swing selama bertahun-tahun, tetapi Gemini bisa melakukannya tanpa penjelasan format sama sekali
    Saat saya mencoba dengan Lovable, aplikasinya tidak berfungsi dengan baik dan hanya menghabiskan kredit, tetapi kali ini benar-benar di level yang berbeda
    Tautan hasil

  • Saya mencoba memberikan soal Project Euler terbaru (#970) ke Gemini. Kemungkinan besar itu tidak ada di data latih, tetapi setelah berpikir selama 5 menit 10 detik, ia memberikan kode Python yang benar
    Waktu penyelesaian 3 manusia teratas masing-masing adalah 14 menit, 20 menit, dan 1 jam 14 menit
    Saya menduga masalah seperti ini memang area yang sudah di-tuning dengan RL, tetapi tetap mengejutkan melihat sesuatu yang biasanya butuh berhari-hari bisa diselesaikan hanya dalam beberapa menit

    • Saya juga mencoba menyelesaikan soal yang sama dengan Gemini 3 Pro Preview, dan ia mengeluarkan hasil dalam 4 menit 31 detik, tetapi jawabannya salah
      Meskipun pencarian web dilarang, ia tetap mengembalikan 8 “sumber” seperti stackexchange, youtube, dan lainnya
      Meski begitu, sebagian besar wawasannya benar dan ini tetap alat yang cukup berguna
      Tautan prompt
    • Saya mencoba lagi masalah low di Kattis yang sudah lama saya pakai untuk pengujian, dan untuk pertama kalinya LLM berhasil lolos
      Sejak ChatGPT, tidak ada model yang bisa menyelesaikannya, tetapi Gemini 3 akhirnya berhasil
    • Skor Elo model yang tinggi mungkin saja hanya karena kecepatannya
      Namun melihat hasil seperti ini, rasanya dalam 10 tahun kita akan punya AI setingkat Stockfish untuk puzzle
    • Sebagai referensi, soal terbaru saat ini adalah Project Euler #970
    • Saya mencobanya dengan gpt-5.1 thinking, dan dia malah langsung mencari jawabannya di internet 😅
  • Saya memasukkan prompt widget jam analog yang dulu saya uji dengan Flash 2.5 ke Gemini 3 Pro Preview, dan langsung mendapatkan hasil yang bekerja sempurna dalam sekali jalan
    Tautan hasil

    • Flash 2.5 juga lumayan bagus. Ia membuat jam UNIX metrik, dengan satuan detik dinyatakan sebagai kilodetik (kiloseconds)
      Satu hari adalah 86.4ks, dan saat ini kira-kira berada di titik waktu AUNIX 1.76 gigadetik. Suatu hari saya ingin membuat jam fisik setinggi 20 kaki
    • Saya tidak bisa menerima kalau tidak ada animasi “wiggle” saat jarum detik menyentuh angka 12 😂
    • Proyek ini kemungkinan besar ada di data latih karena merupakan contoh yang termasuk dalam kursus 30 Days of JavaScript oleh Wes Bos
    • Saya menambahkan beberapa perbaikan di sini, dan hanya suara tik yang berhasil pada percobaan kedua
      Tautan versi perbaikan
    • Prompt yang dipakai orang lain jauh lebih sederhana. Prompt asli yang saya gunakan hanya berbentuk menghasilkan HTML/CSS yang menyertakan variabel ${time}, dan Gemini benar-benar merusaknya
      Tautan contoh gagal
  • Saya merangkum catatan saya terkait benchmark Pelican dan versi baru yang lebih sulit
    Posting blog

    • Sekarang sepertinya setiap lab akan punya ‘penanggung jawab pelican’. Mungkin mereka sedang melatih siang dan malam agar bisa menggambar pelikan bersepeda dalam SVG dengan lebih baik
    • Mereka melatih pelikan selama berbulan-bulan, lalu begitu saya mengubah benchmark, targetnya langsung berubah 😂
    • Ada kemungkinan “pelikan bersepeda” sudah termasuk dalam data latih
    • Mereka bilang tidak ada masalah saturasi, tetapi melihat hasilnya, sepertinya lab-lab besar diam-diam sedang mendaki bukit pelikan
    • Agak disayangkan bahwa knowledge cutoff Gemini 3 adalah Januari 2025, sama seperti 2.5
      Mungkin mereka memakai base model yang sama dan hanya meningkatkan tuning RL
  • Gemini 3 Pro Preview gagal total pada benchmark Python dasar saya
    Gemini 2.5 Pro sedikit lebih dekat, tetapi tetap salah
    Sebaliknya, gpt-5.1-thinking, Claude Sonnet 4.5, dan Opus 4.1 lolos
    Ini kembali mengingatkan saya bahwa benchmark bukan tolok ukur absolut

    • Mengatakan “benchmark tidak berarti” itu berlebihan. Ada keterbatasan, tetapi tetap berguna sebagai indikator
      Saya penasaran seperti apa masalah Python “dasar” yang membuat GPT-5 thinking gagal
    • Sulit mempercayai kesimpulan dari satu benchmark pribadi saja. Kalau dibagikan, mungkin kita semua bisa ikut memverifikasinya
    • Saya sering menguji dengan “buat game Pac-Man dalam satu halaman HTML”. Gemini 3 gagal dengan cara yang mirip dengan 2.5
    • Makna benchmark bergantung pada kualitas desainnya. Tidak bisa dinilai hanya dari apakah benchmark itu dipublikasikan atau tidak
    • Pada skor SWEBench yang diumumkan Google, Gemini 3 Pro berada di bawah Claude Sonnet 4.5. Saya juga penasaran apakah Opus 4.5 mungkin lebih baik
  • Saat menangani masalah terkait medis, Gemini 2.5 Pro hanya benar sekitar setengahnya, tetapi Gemini 3.0 menyelesaikannya dengan sempurna
    Ia bahkan menyusun regulasi, riset, dan prosedur persetujuan terkait secara logis, sehingga benar-benar membantu pengambilan keputusan
    Model seperti ini benar-benar terasa akan mengubah hidup banyak orang

  • Saya merasa sangat lucu bahwa di posting pengumuman Google ada tombol “Baca ringkasan yang dihasilkan AI
    Langkah berikutnya mungkin adalah “biarkan AI kami membaca ringkasan AI Anda”
    Pada akhirnya, mungkin sampai Electric Monk milik Douglas Adams, di mana bahkan kepercayaan pun diotomatisasi

    • Saya juga pernah ingin menamai proyek AI di perusahaan sebagai Electric Monk, tetapi dianggap terlalu kontroversial, jadi diganti menjadi Electric Mentor
    • Terkait itu, komik SMBC ini sangat pas
    • Sekarang saya berharap AI juga bisa mengotomatisasi penanganan gangguan cloud
    • Rasanya hari ketika AI menggantikan bukan hanya developer tetapi juga peran manajer sudah tidak lama lagi
  • Benchmark favorit saya adalah merangkum file audio rapat yang panjang dan melakukan diarization pembicara
    Gemini 2.5 cukup baik dalam ringkasan, tetapi kacau dalam diarization pembicara, sementara 3.0 melakukannya dengan sempurna

    • Saya bereksperimen dengan podcast berdurasi 90 menit, tetapi Gemini 3 membuat kutipan halusinasi dan semua timestamp juga salah
      Untuk audio panjang, batasannya masih ada
    • Jika memakai model audio khusus seperti ElevenLabs atau Soniox, hasilnya jauh lebih akurat
    • Saya penasaran prompt seperti apa yang dipakai
    • Saya juga sedang membuat proyek diarization pembicara podcast, dan hasilnya bekerja cukup baik
    • Parakeet TDT v3 tampaknya sangat cocok untuk pekerjaan seperti ini
  • Dalam uji foto anjing berkaki 5 yang saya buat, Gemini 3 juga gagal
    Meski begitu, tidak seperti model lain, ia memang mengenali kaki kelima itu, hanya saja mengiranya sebagai bagian tubuh lain
    Pengenalan visual masih tetap menjadi tantangan besar

    • Persepsi (perception) adalah area yang telah diasah evolusi selama miliaran tahun, jadi secara komputasional jauh lebih sulit
    • Bisa jadi salah penilaian itu muncul karena blind spot pada filter keamanan
 
nullptr 2025-11-19

Saat ini bisa digunakan secara gratis di Antigravity ( https://antigravity.google/pricing ), fork VSCode OSS yang dirilis Google.
Selain itu, sepertinya di gemini-cli saat ini hanya AI Ultra (360 ribu won per bulan) yang bisa digunakan.