- Gemini 3 Pro adalah model multimodal generasi berikutnya yang melampaui tahap pengenalan sederhana dan mampu melakukan penalaran visual dan spasial
- Mencatat performa terdepan di berbagai bidang seperti pemahaman dokumen, ruang, layar, dan video, serta mencapai tingkat tertinggi pada benchmark penalaran visual yang kompleks
- Dalam pemahaman dokumen, model ini menghadirkan kemampuan penalaran tingkat lanjut seperti OCR yang akurat dan pemulihan struktur (derendering), serta analisis tabel dan grafik multilangkah
- Dalam pemahaman ruang, layar, dan video, model ini memperkuat kemampuan interaksi dengan lingkungan nyata melalui pointing berbasis koordinat, analisis frame berkecepatan tinggi, dan pelacakan sebab dalam video
- Mendukung pemahaman visual presisi dan otomatisasi di berbagai industri seperti pendidikan, kesehatan, hukum, dan keuangan, sementara developer dapat menyesuaikan performa dan biaya dengan parameter media_resolution
Ikhtisar Gemini 3 Pro
- Gemini 3 Pro adalah model yang berkembang dari pengenalan sederhana menjadi penalaran visual dan spasial, dan merupakan model multimodal paling kuat yang dikembangkan Google
- Mencetak skor tertinggi benchmark terbaru di seluruh area pemahaman dokumen, ruang, layar, dan video
- Mencapai performa terbaik baru pada pengujian penalaran visual kompleks seperti MMMU Pro dan Video MMMU
1. Pemahaman dokumen
- Dokumen dunia nyata mencampurkan elemen tidak terstruktur seperti gambar, tulisan tangan, tabel, dan rumus, dan Gemini 3 Pro mampu mengenali serta menstrukturkannya dengan akurat
- Akurasi OCR dan kemampuan penalaran visual meningkat signifikan
- Melalui fitur derendering, dokumen visual dapat dipulihkan menjadi kode terstruktur seperti HTML, LaTeX, dan Markdown
- Dapat mengubah buku besar pedagang abad ke-18 menjadi tabel, atau merekonstruksi gambar rumus menjadi kode LaTeX
- Mereproduksi diagram asli Florence Nightingale menjadi grafik interaktif
- Dengan kemampuan penalaran gabungan, model ini menganalisis tabel dan grafik dalam laporan panjang secara bertahap
- Pada benchmark CharXiv Reasoning, model ini melampaui tolok ukur manusia (80,5%)
- Pada contoh laporan Biro Sensus Amerika Serikat, model ini secara akurat menyimpulkan penyebab perubahan indeks Gini dengan mengaitkan analisis angka dan kebijakan, seperti berakhirnya kebijakan ARPA dan stimulus ekonomi
- Menyimpulkan melalui perbandingan tabel bahwa proporsi kuintil pendapatan terbawah meningkat
2. Pemahaman ruang
- Gemini 3 Pro adalah versi dengan kemampuan pemahaman spasial paling kuat, yang dioptimalkan untuk memahami dunia fisik
- Dengan output koordinat tingkat piksel, model ini dapat menunjuk lokasi tertentu di dalam gambar secara akurat
- Menggunakan titik 2D berurutan untuk melakukan estimasi pose manusia atau pelacakan lintasan
- Dengan fitur referensi open vocabulary, model ini dapat mengidentifikasi objek dan maksud
- Memungkinkan pembuatan rencana berbasis ruang seperti memberi robot instruksi “pilah sampah di meja ini”
- Mendukung pelaksanaan instruksi visual pada perangkat AR/XR seperti “tunjukkan sekrup sesuai manual pengguna”
3. Pemahaman layar
- Mengenali layar desktop dan mobile OS secara akurat untuk mendukung otomatisasi penggunaan komputer
- Dapat dimanfaatkan untuk otomatisasi tugas berulang, pengujian QA, onboarding pengguna, dan analisis UX
- Mengenali elemen UI dan menentukan lokasi klik secara presisi
4. Pemahaman video
- Video adalah format data paling kompleks, dan Gemini 3 Pro mampu menganalisisnya dengan kecepatan tinggi dan presisi tinggi
- Dengan pemrosesan frame rate tinggi (>1 FPS), model ini dapat mengenali gerakan cepat dan menganalisis gerakan halus seperti ayunan golf
- Pada pemrosesan 10 FPS, model ini bahkan dapat menangkap perpindahan bobot tubuh dan detail gerakan ayunan
- Dengan mode ‘Thinking’, model ini meluas dari pengenalan objek sederhana ke penalaran video yang melacak sebab dan akibat
- Memahami bukan hanya ‘apa’ yang terjadi, tetapi juga ‘mengapa’
- Dapat menganalisis video panjang dan mengubahnya menjadi kode aplikasi atau informasi terstruktur, sehingga memperkuat keterkaitan antara video dan kode
5. Bidang pemanfaatan nyata
- Bidang pendidikan: meningkatkan kemampuan pemecahan masalah matematika dan sains yang berpusat pada diagram
- Menangani soal penalaran multimodal dari tingkat menengah hingga universitas
- Menganalisis teka-teki matematika visual seperti [Math Kangaroo] serta diagram kimia dan fisika yang kompleks
- Dikombinasikan dengan [Nano Banana Pro] untuk menandai kesalahan pada tugas siswa secara visual
- Kesehatan dan ilmu hayati: mencatat performa tertinggi pada benchmark citra medis seperti MedXpertQA-MM, VQA-RAD, dan MicroVQA
- Dapat digunakan untuk tanya jawab citra radiologi dan riset biologi berbasis mikroskop
- Hukum dan keuangan: mendukung otomatisasi pemrosesan dokumen profesional dengan menganalisis tabel dan grafik dalam laporan serta kontrak yang kompleks
6. Kontrol resolusi media
- Meningkatkan kualitas dengan mempertahankan rasio aspek asli saat memproses input visual
- Dengan parameter media_resolution, pengguna dapat menyesuaikan keseimbangan antara performa dan biaya
- High resolution: cocok untuk OCR detail dan pemahaman dokumen yang kompleks
- Low resolution: mengoptimalkan biaya dan latensi saat pengenalan adegan atau pemrosesan konteks panjang
- Detail pengaturan dapat dilihat di [Gemini 3.0 Documentation Guide]
Akses developer
- Gemini 3 Pro dapat diuji langsung di Google AI Studio, dan
melalui dokumentasi developer, tersedia dukungan untuk integrasi API dan pemanfaatan model
Belum ada komentar.