Gemini 3 Pro: Frontier AI Visi

(blog.google)

3 poin oleh GN⁺ 2025-12-06 | 3 komentar | Bagikan ke WhatsApp

Gemini 3 Pro adalah model multimodal generasi berikutnya yang melampaui tahap pengenalan sederhana dan mampu melakukan penalaran visual dan spasial
Mencatat performa terdepan di berbagai bidang seperti pemahaman dokumen, ruang, layar, dan video, serta mencapai tingkat tertinggi pada benchmark penalaran visual yang kompleks
Dalam pemahaman dokumen, model ini menghadirkan kemampuan penalaran tingkat lanjut seperti OCR yang akurat dan pemulihan struktur (derendering), serta analisis tabel dan grafik multilangkah
Dalam pemahaman ruang, layar, dan video, model ini memperkuat kemampuan interaksi dengan lingkungan nyata melalui pointing berbasis koordinat, analisis frame berkecepatan tinggi, dan pelacakan sebab dalam video
Mendukung pemahaman visual presisi dan otomatisasi di berbagai industri seperti pendidikan, kesehatan, hukum, dan keuangan, sementara developer dapat menyesuaikan performa dan biaya dengan parameter media_resolution

Ikhtisar Gemini 3 Pro

Gemini 3 Pro adalah model yang berkembang dari pengenalan sederhana menjadi penalaran visual dan spasial, dan merupakan model multimodal paling kuat yang dikembangkan Google
- Mencetak skor tertinggi benchmark terbaru di seluruh area pemahaman dokumen, ruang, layar, dan video
- Mencapai performa terbaik baru pada pengujian penalaran visual kompleks seperti MMMU Pro dan Video MMMU

1. Pemahaman dokumen

Dokumen dunia nyata mencampurkan elemen tidak terstruktur seperti gambar, tulisan tangan, tabel, dan rumus, dan Gemini 3 Pro mampu mengenali serta menstrukturkannya dengan akurat
- Akurasi OCR dan kemampuan penalaran visual meningkat signifikan
Melalui fitur derendering, dokumen visual dapat dipulihkan menjadi kode terstruktur seperti HTML, LaTeX, dan Markdown
- Dapat mengubah buku besar pedagang abad ke-18 menjadi tabel, atau merekonstruksi gambar rumus menjadi kode LaTeX
- Mereproduksi diagram asli Florence Nightingale menjadi grafik interaktif
Dengan kemampuan penalaran gabungan, model ini menganalisis tabel dan grafik dalam laporan panjang secara bertahap
- Pada benchmark CharXiv Reasoning, model ini melampaui tolok ukur manusia (80,5%)
- Pada contoh laporan Biro Sensus Amerika Serikat, model ini secara akurat menyimpulkan penyebab perubahan indeks Gini dengan mengaitkan analisis angka dan kebijakan, seperti berakhirnya kebijakan ARPA dan stimulus ekonomi
- Menyimpulkan melalui perbandingan tabel bahwa proporsi kuintil pendapatan terbawah meningkat

2. Pemahaman ruang

Gemini 3 Pro adalah versi dengan kemampuan pemahaman spasial paling kuat, yang dioptimalkan untuk memahami dunia fisik
- Dengan output koordinat tingkat piksel, model ini dapat menunjuk lokasi tertentu di dalam gambar secara akurat
- Menggunakan titik 2D berurutan untuk melakukan estimasi pose manusia atau pelacakan lintasan
Dengan fitur referensi open vocabulary, model ini dapat mengidentifikasi objek dan maksud
- Memungkinkan pembuatan rencana berbasis ruang seperti memberi robot instruksi “pilah sampah di meja ini”
- Mendukung pelaksanaan instruksi visual pada perangkat AR/XR seperti “tunjukkan sekrup sesuai manual pengguna”

3. Pemahaman layar

Mengenali layar desktop dan mobile OS secara akurat untuk mendukung otomatisasi penggunaan komputer
- Dapat dimanfaatkan untuk otomatisasi tugas berulang, pengujian QA, onboarding pengguna, dan analisis UX
- Mengenali elemen UI dan menentukan lokasi klik secara presisi

4. Pemahaman video

Video adalah format data paling kompleks, dan Gemini 3 Pro mampu menganalisisnya dengan kecepatan tinggi dan presisi tinggi
- Dengan pemrosesan frame rate tinggi (>1 FPS), model ini dapat mengenali gerakan cepat dan menganalisis gerakan halus seperti ayunan golf
- Pada pemrosesan 10 FPS, model ini bahkan dapat menangkap perpindahan bobot tubuh dan detail gerakan ayunan
Dengan mode ‘Thinking’, model ini meluas dari pengenalan objek sederhana ke penalaran video yang melacak sebab dan akibat
- Memahami bukan hanya ‘apa’ yang terjadi, tetapi juga ‘mengapa’
Dapat menganalisis video panjang dan mengubahnya menjadi kode aplikasi atau informasi terstruktur, sehingga memperkuat keterkaitan antara video dan kode

5. Bidang pemanfaatan nyata

Bidang pendidikan: meningkatkan kemampuan pemecahan masalah matematika dan sains yang berpusat pada diagram
- Menangani soal penalaran multimodal dari tingkat menengah hingga universitas
- Menganalisis teka-teki matematika visual seperti [Math Kangaroo] serta diagram kimia dan fisika yang kompleks
- Dikombinasikan dengan [Nano Banana Pro] untuk menandai kesalahan pada tugas siswa secara visual
Kesehatan dan ilmu hayati: mencatat performa tertinggi pada benchmark citra medis seperti MedXpertQA-MM, VQA-RAD, dan MicroVQA
- Dapat digunakan untuk tanya jawab citra radiologi dan riset biologi berbasis mikroskop
Hukum dan keuangan: mendukung otomatisasi pemrosesan dokumen profesional dengan menganalisis tabel dan grafik dalam laporan serta kontrak yang kompleks

6. Kontrol resolusi media

Meningkatkan kualitas dengan mempertahankan rasio aspek asli saat memproses input visual
Dengan parameter media_resolution, pengguna dapat menyesuaikan keseimbangan antara performa dan biaya
- High resolution: cocok untuk OCR detail dan pemahaman dokumen yang kompleks
- Low resolution: mengoptimalkan biaya dan latensi saat pengenalan adegan atau pemrosesan konteks panjang
Detail pengaturan dapat dilihat di [Gemini 3.0 Documentation Guide]

Akses developer

Gemini 3 Pro dapat diuji langsung di Google AI Studio, dan
melalui dokumentasi developer, tersedia dukungan untuk integrasi API dan pemanfaatan model

3 komentar

y15un 2025-12-06

Semuanya sudah bagus, jadi saya harap kebiasaan menyisipkan video YouTube dengan melawan instruksi pengguna bisa diperbaiki. Saat menjawab, video itu terus otomatis diputar dan mengganggu konsentrasi, jadi saya bahkan sudah melarang video lewat personal context, tetapi kadang masih diabaikan dan videonya tetap disodorkan. Menjengkelkan...

colus001 2025-12-08

Saat saya cuma minta dibuatkan daftar, tiba-tiba malah disuruh menghubungkan Google Drive wkwk

GN⁺ 2025-12-06

Komentar Hacker News

Dalam tes gambar LLM yang saya buat, akhirnya ada model yang untuk pertama kalinya mendapat skor parsial
Tesnya adalah menghitung jumlah kaki pada anjing berkaki 5, dan sebagian besar LLM keras kepala mengklaim jumlahnya 4
GPT-5 bahkan menulis sendiri skrip deteksi tepi untuk menemukan batas antara “telapak anjing berwarna keemasan” dan “rumput hijau terang”, lalu mencoba membuktikan bahwa jumlahnya 4, tetapi ketika sebenarnya menemukan 5, ia menganggap itu bug dan menyesuaikan sensitivitasnya
Gemini 3 awalnya juga salah menghitung jumlah kaki, tetapi ia mengenali “struktur anatomi pria” di foto. Artinya, kaki ke-5 memang berada di posisi itu
Meski begitu, tetap sulit menyebutnya mengesankan
Sebagai referensi, image slicer dari Meta berhasil mengenali 5 kaki dengan tepat. Semua anjing berkaki banyak itu dibuat dengan nano-banana
- Saya juga meminta Gemini membuat gambar anjing dengan 5 kaki, tetapi gagal melakukannya dengan benar. Biasanya ia membuat anjing normal atau mengubah ekornya menjadi semacam aksesori aneh
  Saat saya meminta Gemini dan Grok menghitung jumlah kaki, keduanya tetap bersikeras jawabannya 4
  Ketika saya bilang Grok salah, ia jatuh ke dalam kebingungan ontologis, dan akhirnya menyimpulkan, “ini adalah foto ilusi optik terkenal, terlihat seperti anjing tanpa kepala, tetapi sebenarnya hanya punya tiga kaki”
  Tes seperti ini membuat kita kembali ke kenyataan setiap kali LLM mulai terasa benar-benar ‘cerdas’
- Saya bukan ahli AI, tetapi saya punya tes gambar labirin yang gagal di semua model
  Kalau meminta LLM menggambar jalur optimal, semuanya gagal
  Ini hasil Nano Banana: tautan tes
- Tes seperti ini terasa seperti pendekatan yang bias untuk menilai LLM berdasarkan cara kognisi manusia
  Selain menunjukkan bahwa model tidak berpikir seperti manusia, tidak banyak yang benar-benar terbukti
  Saya penasaran apakah prompt-nya secara eksplisit meminta model untuk “menafsirkan gambar ini secara sangat harfiah”, atau justru memang dirancang dengan niat untuk menipu
  Juga tidak jelas apakah kriteria keberhasilannya sekadar menjawab “5”, atau termasuk konteks percakapan
  Pada akhirnya, tes seperti ini terlihat seperti analisis yang tidak produktif untuk menilai tingkat kognisi LLM
- Nano Banana 2 sebenarnya menghasilkan gambar anjing berkaki 5 yang cukup meyakinkan
  tautan hasil
  Tetapi model itu tidak ‘berpikir’ bahwa ia berhasil melakukannya
  Pada tahap penalaran terakhir, ia mengakui keterbatasannya sendiri dengan mengatakan “kaki kelima terus hilang”, lalu menyimpulkan bahwa ia “menyadari cacat tersebut tetapi tetap memberikan gambar terbaik yang bisa dibuat”
- Ketika harus mengatasi konsep yang muncul tidak seimbang dalam data pelatihan, model cenderung kesulitan
  Misalnya, jika mencoba menghasilkan laba-laba yang kehilangan satu kaki, bintang bersudut 9, semanggi 5 daun, atau orang dengan jumlah jari berbeda, tingkat keberhasilannya bahkan tidak sampai 25%
  Khusus masalah jari, ini terasa ironis jika mengingat usaha besar yang dulu dilakukan untuk memperbaiki kesalahan anatomi pada SD 1.5
Saya bekerja pada gambar kelistrikan konstruksi dan kadang memberi LLM tugas-tugas sederhana
Bahkan ketika diberi harness yang berantakan, model itu hampir langsung menyelesaikan tata letak stopkontak di ruangan dalam satu percobaan
Jika kontrolnya dibuat sedikit lebih rinci, sepertinya dalam waktu dekat ia bisa menggantikan sebagian besar pekerjaan rekan-rekan saya
- Saya berharap ada tongkat sihir yang bisa membuat alat seperti AVEVA atau AutoCAD terasa tidak terlalu menyiksa
  Orang yang seharusnya memperbaiki alat-alat seperti ini bukan para engineer penggunanya, melainkan perusahaan pembuat alat itu sendiri
  Mengandalkan akselerator pihak ketiga dengan reliabilitas rendah itu berbahaya
- Saya ingin melihat contoh harness yang digunakan. Saya juga ingin bereksperimen
- Klaim bahwa “AI tidak akan pernah bisa menggantikan kreativitas manusia” terasa seperti tiang gawang yang terus bergeser
  Cakupannya makin meluas, dari seni digital, manajemen proyek, engineering, sampai pekerjaan blue-collar
  Rasanya tidak ada yang ingat lagi bahwa dulu Turing test pernah jadi pembahasan serius
Jika peningkatan performa OCR ini diterapkan ke Google Books, dampaknya bisa luar biasa
Dalam jangka panjang, ini bahkan bisa memungkinkan penyimpanan terkompresi buku langka di bawah $5,000
Tulisan blog Anna’s Archive juga layak dibaca
Akan bagus jika archive.org memakai ini alih-alih Tesseract. Hanya saja saya penasaran dengan biayanya
- Ini struktur data flywheel yang sangat khas — model yang lebih baik → data yang lebih baik → model yang lebih baik
- “Lebih banyak data untuk dewa data!”
Hasil ScreenSpot Pro menarik
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
Ini adalah tes penggunaan komputer GUI berbasis resolusi tinggi
tautan paper
- Beberapa bulan lalu saya terkejut melihat GPT-5 menunjukkan performa yang jauh lebih buruk daripada Opus 4.1 dan Gemini 2.5 dalam tes OCR sederhana
  Saya berencana mengujinya lagi dengan model terbaru
  blog terkait
- Hasil GPT-5.1 terlalu rendah secara ekstrem. Apakah mungkin ada kehilangan informasi akibat downscaling?
- Dengan tren seperti ini, akurasi tampaknya akan segera mencapai kisaran 90%
Untuk penulis artikel — tautan “HTML transcription” rusak
Tautannya mengarah ke alamat Google internal
- Lucu juga bahwa desain portal internal perusahaan hampir tidak berubah selama puluhan tahun. Gaya lawas itu terasa nostalgik
- Saya Rohan, penulis artikelnya. Terima kasih atas laporannya, baru saja saya perbaiki
- Cukup mengejutkan bahwa tautan bantuan login bisa dibuka tanpa login
- Tautan “See prompt in Google AI Studio” juga mengarah ke prompt privat
Nano Banana Pro masih belum bisa menyelesaikan teka-teki pencarian kata dengan sempurna
Sebaliknya, Gemini 3 Pro with Code Execution menjawab benar dalam sekali coba dan bahkan menandai posisi katanya dengan akurat
gambar puzzle, hasil Nano Banana1, hasil2
Nano Banana hanya menemukan dua kata, tetapi ini tetap kemajuan besar dibanding sebelumnya
Ini jenis masalah yang membutuhkan prapemrosesan yang detail, seperti mencocokkan huruf besar-kecil atau menghapus spasi
- Saat memakai web app Gemini, sebaiknya jangan memulai dari mode pembuatan gambar sejak awal; lebih baik atur dulu alur prompt yang tepat di mode percakapan biasa, lalu baru minta pembuatan gambar
Disebut bahwa “Gemini 3 Pro adalah lompatan generasi dari pengenalan sederhana menuju penalaran spasial”
Tetapi ketika diminta membuat “gelas anggur yang penuh”, yang digambar justru gelas terisi 2/3
Penalaran spasial yang sesungguhnya masih jauh
- Gemini 3 Pro berbeda dari Nano Banana Pro, dan ketahanan model decoding gambarnya mungkin lebih lemah
  Nano Banana Pro lebih baik dalam menalar posisi kesalahan di dalam gambar
- Saya juga mencoba prompt yang sama, dan setelah menambahkan sekali lagi “tolong isi sampai gelas hampir meluap”, hasilnya menjadi gelas yang terisi penuh sempurna
- Sebaliknya, jika diberi gambar lalu ditanya “apakah gelas ini penuh?”, kemungkinan besar model bisa menjawab dengan tepat. Qwen-VL sudah bekerja baik dengan cara seperti itu
Pengumuman kali ini bukan tentang model baru, melainkan hanya menekankan contoh penggunaan visi nyata Gemini 3
Katanya fitur keluaran koordinat Gemini 3 bisa dipakai untuk pose estimation atau pelacakan lintasan,
tetapi sayang tidak ada prompt atau dokumentasi yang konkret
- Saya ingin fitur di CMS yang otomatis membingkai foto untuk berbagai rasio
  Misalnya, adakah model yang bisa memotong foto menjadi rasio wide, persegi, vertikal, dan 4:3? Saya belum menemukannya di Hugging Face
- Blog Simon Willison yang terkait ini membantu: Bounding Box Visualization
Jika YouTube dengan deskripsi audio memungkinkan, itu akan benar-benar luar biasa
Bahkan tanpa memainkannya sendiri, kita bisa mendengarkan playthrough naratif di mana Gemini mendeskripsikan adegan demi adegan
- Saya menganalisis video Zelda TOTK tiap 5 detik untuk membuat deskripsi suara naratif
  video asli, skrip, suara TTS
  Karena videonya 144p, deskripsi detailnya agak meleset, tetapi penjelasan adegannya cukup akurat
- Saya juga memproses video Witcher 3 berdurasi 1 jam pada 144p, dan dengan sekitar 300,000 token saya bisa dengan mudah membuat deskripsi per adegan
- Saya mengunggah video pembuka 5 menit Zelda: Breath of the Wild ke aplikasi Gemini dan meminta deskripsi per adegan
  video asli, hasil gist
  Hasilnya cukup akurat sebagai deskripsi untuk penyandang tunanetra