Gemini 3 Pro: Frontier AI Visi
(blog.google)- Gemini 3 Pro adalah model multimodal generasi berikutnya yang melampaui tahap pengenalan sederhana dan mampu melakukan penalaran visual dan spasial
- Mencatat performa terdepan di berbagai bidang seperti pemahaman dokumen, ruang, layar, dan video, serta mencapai tingkat tertinggi pada benchmark penalaran visual yang kompleks
- Dalam pemahaman dokumen, model ini menghadirkan kemampuan penalaran tingkat lanjut seperti OCR yang akurat dan pemulihan struktur (derendering), serta analisis tabel dan grafik multilangkah
- Dalam pemahaman ruang, layar, dan video, model ini memperkuat kemampuan interaksi dengan lingkungan nyata melalui pointing berbasis koordinat, analisis frame berkecepatan tinggi, dan pelacakan sebab dalam video
- Mendukung pemahaman visual presisi dan otomatisasi di berbagai industri seperti pendidikan, kesehatan, hukum, dan keuangan, sementara developer dapat menyesuaikan performa dan biaya dengan parameter media_resolution
Ikhtisar Gemini 3 Pro
- Gemini 3 Pro adalah model yang berkembang dari pengenalan sederhana menjadi penalaran visual dan spasial, dan merupakan model multimodal paling kuat yang dikembangkan Google
- Mencetak skor tertinggi benchmark terbaru di seluruh area pemahaman dokumen, ruang, layar, dan video
- Mencapai performa terbaik baru pada pengujian penalaran visual kompleks seperti MMMU Pro dan Video MMMU
1. Pemahaman dokumen
- Dokumen dunia nyata mencampurkan elemen tidak terstruktur seperti gambar, tulisan tangan, tabel, dan rumus, dan Gemini 3 Pro mampu mengenali serta menstrukturkannya dengan akurat
- Akurasi OCR dan kemampuan penalaran visual meningkat signifikan
- Melalui fitur derendering, dokumen visual dapat dipulihkan menjadi kode terstruktur seperti HTML, LaTeX, dan Markdown
- Dapat mengubah buku besar pedagang abad ke-18 menjadi tabel, atau merekonstruksi gambar rumus menjadi kode LaTeX
- Mereproduksi diagram asli Florence Nightingale menjadi grafik interaktif
- Dengan kemampuan penalaran gabungan, model ini menganalisis tabel dan grafik dalam laporan panjang secara bertahap
- Pada benchmark CharXiv Reasoning, model ini melampaui tolok ukur manusia (80,5%)
- Pada contoh laporan Biro Sensus Amerika Serikat, model ini secara akurat menyimpulkan penyebab perubahan indeks Gini dengan mengaitkan analisis angka dan kebijakan, seperti berakhirnya kebijakan ARPA dan stimulus ekonomi
- Menyimpulkan melalui perbandingan tabel bahwa proporsi kuintil pendapatan terbawah meningkat
2. Pemahaman ruang
- Gemini 3 Pro adalah versi dengan kemampuan pemahaman spasial paling kuat, yang dioptimalkan untuk memahami dunia fisik
- Dengan output koordinat tingkat piksel, model ini dapat menunjuk lokasi tertentu di dalam gambar secara akurat
- Menggunakan titik 2D berurutan untuk melakukan estimasi pose manusia atau pelacakan lintasan
- Dengan fitur referensi open vocabulary, model ini dapat mengidentifikasi objek dan maksud
- Memungkinkan pembuatan rencana berbasis ruang seperti memberi robot instruksi “pilah sampah di meja ini”
- Mendukung pelaksanaan instruksi visual pada perangkat AR/XR seperti “tunjukkan sekrup sesuai manual pengguna”
3. Pemahaman layar
- Mengenali layar desktop dan mobile OS secara akurat untuk mendukung otomatisasi penggunaan komputer
- Dapat dimanfaatkan untuk otomatisasi tugas berulang, pengujian QA, onboarding pengguna, dan analisis UX
- Mengenali elemen UI dan menentukan lokasi klik secara presisi
4. Pemahaman video
- Video adalah format data paling kompleks, dan Gemini 3 Pro mampu menganalisisnya dengan kecepatan tinggi dan presisi tinggi
- Dengan pemrosesan frame rate tinggi (>1 FPS), model ini dapat mengenali gerakan cepat dan menganalisis gerakan halus seperti ayunan golf
- Pada pemrosesan 10 FPS, model ini bahkan dapat menangkap perpindahan bobot tubuh dan detail gerakan ayunan
- Dengan mode ‘Thinking’, model ini meluas dari pengenalan objek sederhana ke penalaran video yang melacak sebab dan akibat
- Memahami bukan hanya ‘apa’ yang terjadi, tetapi juga ‘mengapa’
- Dapat menganalisis video panjang dan mengubahnya menjadi kode aplikasi atau informasi terstruktur, sehingga memperkuat keterkaitan antara video dan kode
5. Bidang pemanfaatan nyata
- Bidang pendidikan: meningkatkan kemampuan pemecahan masalah matematika dan sains yang berpusat pada diagram
- Menangani soal penalaran multimodal dari tingkat menengah hingga universitas
- Menganalisis teka-teki matematika visual seperti [Math Kangaroo] serta diagram kimia dan fisika yang kompleks
- Dikombinasikan dengan [Nano Banana Pro] untuk menandai kesalahan pada tugas siswa secara visual
- Kesehatan dan ilmu hayati: mencatat performa tertinggi pada benchmark citra medis seperti MedXpertQA-MM, VQA-RAD, dan MicroVQA
- Dapat digunakan untuk tanya jawab citra radiologi dan riset biologi berbasis mikroskop
- Hukum dan keuangan: mendukung otomatisasi pemrosesan dokumen profesional dengan menganalisis tabel dan grafik dalam laporan serta kontrak yang kompleks
6. Kontrol resolusi media
- Meningkatkan kualitas dengan mempertahankan rasio aspek asli saat memproses input visual
- Dengan parameter media_resolution, pengguna dapat menyesuaikan keseimbangan antara performa dan biaya
- High resolution: cocok untuk OCR detail dan pemahaman dokumen yang kompleks
- Low resolution: mengoptimalkan biaya dan latensi saat pengenalan adegan atau pemrosesan konteks panjang
- Detail pengaturan dapat dilihat di [Gemini 3.0 Documentation Guide]
Akses developer
- Gemini 3 Pro dapat diuji langsung di Google AI Studio, dan
melalui dokumentasi developer, tersedia dukungan untuk integrasi API dan pemanfaatan model
3 komentar
Semuanya sudah bagus, jadi saya harap kebiasaan menyisipkan video YouTube dengan melawan instruksi pengguna bisa diperbaiki. Saat menjawab, video itu terus otomatis diputar dan mengganggu konsentrasi, jadi saya bahkan sudah melarang video lewat personal context, tetapi kadang masih diabaikan dan videonya tetap disodorkan. Menjengkelkan...
Saat saya cuma minta dibuatkan daftar, tiba-tiba malah disuruh menghubungkan Google Drive wkwk
Komentar Hacker News
Dalam tes gambar LLM yang saya buat, akhirnya ada model yang untuk pertama kalinya mendapat skor parsial
Tesnya adalah menghitung jumlah kaki pada anjing berkaki 5, dan sebagian besar LLM keras kepala mengklaim jumlahnya 4
GPT-5 bahkan menulis sendiri skrip deteksi tepi untuk menemukan batas antara “telapak anjing berwarna keemasan” dan “rumput hijau terang”, lalu mencoba membuktikan bahwa jumlahnya 4, tetapi ketika sebenarnya menemukan 5, ia menganggap itu bug dan menyesuaikan sensitivitasnya
Gemini 3 awalnya juga salah menghitung jumlah kaki, tetapi ia mengenali “struktur anatomi pria” di foto. Artinya, kaki ke-5 memang berada di posisi itu
Meski begitu, tetap sulit menyebutnya mengesankan
Sebagai referensi, image slicer dari Meta berhasil mengenali 5 kaki dengan tepat. Semua anjing berkaki banyak itu dibuat dengan nano-banana
Saat saya meminta Gemini dan Grok menghitung jumlah kaki, keduanya tetap bersikeras jawabannya 4
Ketika saya bilang Grok salah, ia jatuh ke dalam kebingungan ontologis, dan akhirnya menyimpulkan, “ini adalah foto ilusi optik terkenal, terlihat seperti anjing tanpa kepala, tetapi sebenarnya hanya punya tiga kaki”
Tes seperti ini membuat kita kembali ke kenyataan setiap kali LLM mulai terasa benar-benar ‘cerdas’
Kalau meminta LLM menggambar jalur optimal, semuanya gagal
Ini hasil Nano Banana: tautan tes
Selain menunjukkan bahwa model tidak berpikir seperti manusia, tidak banyak yang benar-benar terbukti
Saya penasaran apakah prompt-nya secara eksplisit meminta model untuk “menafsirkan gambar ini secara sangat harfiah”, atau justru memang dirancang dengan niat untuk menipu
Juga tidak jelas apakah kriteria keberhasilannya sekadar menjawab “5”, atau termasuk konteks percakapan
Pada akhirnya, tes seperti ini terlihat seperti analisis yang tidak produktif untuk menilai tingkat kognisi LLM
tautan hasil
Tetapi model itu tidak ‘berpikir’ bahwa ia berhasil melakukannya
Pada tahap penalaran terakhir, ia mengakui keterbatasannya sendiri dengan mengatakan “kaki kelima terus hilang”, lalu menyimpulkan bahwa ia “menyadari cacat tersebut tetapi tetap memberikan gambar terbaik yang bisa dibuat”
Misalnya, jika mencoba menghasilkan laba-laba yang kehilangan satu kaki, bintang bersudut 9, semanggi 5 daun, atau orang dengan jumlah jari berbeda, tingkat keberhasilannya bahkan tidak sampai 25%
Khusus masalah jari, ini terasa ironis jika mengingat usaha besar yang dulu dilakukan untuk memperbaiki kesalahan anatomi pada SD 1.5
Saya bekerja pada gambar kelistrikan konstruksi dan kadang memberi LLM tugas-tugas sederhana
Bahkan ketika diberi harness yang berantakan, model itu hampir langsung menyelesaikan tata letak stopkontak di ruangan dalam satu percobaan
Jika kontrolnya dibuat sedikit lebih rinci, sepertinya dalam waktu dekat ia bisa menggantikan sebagian besar pekerjaan rekan-rekan saya
Orang yang seharusnya memperbaiki alat-alat seperti ini bukan para engineer penggunanya, melainkan perusahaan pembuat alat itu sendiri
Mengandalkan akselerator pihak ketiga dengan reliabilitas rendah itu berbahaya
Cakupannya makin meluas, dari seni digital, manajemen proyek, engineering, sampai pekerjaan blue-collar
Rasanya tidak ada yang ingat lagi bahwa dulu Turing test pernah jadi pembahasan serius
Jika peningkatan performa OCR ini diterapkan ke Google Books, dampaknya bisa luar biasa
Dalam jangka panjang, ini bahkan bisa memungkinkan penyimpanan terkompresi buku langka di bawah $5,000
Tulisan blog Anna’s Archive juga layak dibaca
Akan bagus jika archive.org memakai ini alih-alih Tesseract. Hanya saja saya penasaran dengan biayanya
Hasil ScreenSpot Pro menarik
Ini adalah tes penggunaan komputer GUI berbasis resolusi tinggi
tautan paper
Saya berencana mengujinya lagi dengan model terbaru
blog terkait
Untuk penulis artikel — tautan “HTML transcription” rusak
Tautannya mengarah ke alamat Google internal
Nano Banana Pro masih belum bisa menyelesaikan teka-teki pencarian kata dengan sempurna
Sebaliknya, Gemini 3 Pro with Code Execution menjawab benar dalam sekali coba dan bahkan menandai posisi katanya dengan akurat
gambar puzzle, hasil Nano Banana1, hasil2
Nano Banana hanya menemukan dua kata, tetapi ini tetap kemajuan besar dibanding sebelumnya
Ini jenis masalah yang membutuhkan prapemrosesan yang detail, seperti mencocokkan huruf besar-kecil atau menghapus spasi
Disebut bahwa “Gemini 3 Pro adalah lompatan generasi dari pengenalan sederhana menuju penalaran spasial”
Tetapi ketika diminta membuat “gelas anggur yang penuh”, yang digambar justru gelas terisi 2/3
Penalaran spasial yang sesungguhnya masih jauh
Nano Banana Pro lebih baik dalam menalar posisi kesalahan di dalam gambar
Pengumuman kali ini bukan tentang model baru, melainkan hanya menekankan contoh penggunaan visi nyata Gemini 3
Katanya fitur keluaran koordinat Gemini 3 bisa dipakai untuk pose estimation atau pelacakan lintasan,
tetapi sayang tidak ada prompt atau dokumentasi yang konkret
Misalnya, adakah model yang bisa memotong foto menjadi rasio wide, persegi, vertikal, dan 4:3? Saya belum menemukannya di Hugging Face
Jika YouTube dengan deskripsi audio memungkinkan, itu akan benar-benar luar biasa
Bahkan tanpa memainkannya sendiri, kita bisa mendengarkan playthrough naratif di mana Gemini mendeskripsikan adegan demi adegan
video asli, skrip, suara TTS
Karena videonya 144p, deskripsi detailnya agak meleset, tetapi penjelasan adegannya cukup akurat
video asli, hasil gist
Hasilnya cukup akurat sebagai deskripsi untuk penyandang tunanetra