3 poin oleh GN⁺ 2025-12-06 | Belum ada komentar. | Bagikan ke WhatsApp
  • Gemini 3 Pro adalah model multimodal generasi berikutnya yang melampaui tahap pengenalan sederhana dan mampu melakukan penalaran visual dan spasial
  • Mencatat performa terdepan di berbagai bidang seperti pemahaman dokumen, ruang, layar, dan video, serta mencapai tingkat tertinggi pada benchmark penalaran visual yang kompleks
  • Dalam pemahaman dokumen, model ini menghadirkan kemampuan penalaran tingkat lanjut seperti OCR yang akurat dan pemulihan struktur (derendering), serta analisis tabel dan grafik multilangkah
  • Dalam pemahaman ruang, layar, dan video, model ini memperkuat kemampuan interaksi dengan lingkungan nyata melalui pointing berbasis koordinat, analisis frame berkecepatan tinggi, dan pelacakan sebab dalam video
  • Mendukung pemahaman visual presisi dan otomatisasi di berbagai industri seperti pendidikan, kesehatan, hukum, dan keuangan, sementara developer dapat menyesuaikan performa dan biaya dengan parameter media_resolution

Ikhtisar Gemini 3 Pro

  • Gemini 3 Pro adalah model yang berkembang dari pengenalan sederhana menjadi penalaran visual dan spasial, dan merupakan model multimodal paling kuat yang dikembangkan Google
    • Mencetak skor tertinggi benchmark terbaru di seluruh area pemahaman dokumen, ruang, layar, dan video
    • Mencapai performa terbaik baru pada pengujian penalaran visual kompleks seperti MMMU Pro dan Video MMMU

1. Pemahaman dokumen

  • Dokumen dunia nyata mencampurkan elemen tidak terstruktur seperti gambar, tulisan tangan, tabel, dan rumus, dan Gemini 3 Pro mampu mengenali serta menstrukturkannya dengan akurat
    • Akurasi OCR dan kemampuan penalaran visual meningkat signifikan
  • Melalui fitur derendering, dokumen visual dapat dipulihkan menjadi kode terstruktur seperti HTML, LaTeX, dan Markdown
    • Dapat mengubah buku besar pedagang abad ke-18 menjadi tabel, atau merekonstruksi gambar rumus menjadi kode LaTeX
    • Mereproduksi diagram asli Florence Nightingale menjadi grafik interaktif
  • Dengan kemampuan penalaran gabungan, model ini menganalisis tabel dan grafik dalam laporan panjang secara bertahap
    • Pada benchmark CharXiv Reasoning, model ini melampaui tolok ukur manusia (80,5%)
    • Pada contoh laporan Biro Sensus Amerika Serikat, model ini secara akurat menyimpulkan penyebab perubahan indeks Gini dengan mengaitkan analisis angka dan kebijakan, seperti berakhirnya kebijakan ARPA dan stimulus ekonomi
    • Menyimpulkan melalui perbandingan tabel bahwa proporsi kuintil pendapatan terbawah meningkat

2. Pemahaman ruang

  • Gemini 3 Pro adalah versi dengan kemampuan pemahaman spasial paling kuat, yang dioptimalkan untuk memahami dunia fisik
    • Dengan output koordinat tingkat piksel, model ini dapat menunjuk lokasi tertentu di dalam gambar secara akurat
    • Menggunakan titik 2D berurutan untuk melakukan estimasi pose manusia atau pelacakan lintasan
  • Dengan fitur referensi open vocabulary, model ini dapat mengidentifikasi objek dan maksud
    • Memungkinkan pembuatan rencana berbasis ruang seperti memberi robot instruksi “pilah sampah di meja ini”
    • Mendukung pelaksanaan instruksi visual pada perangkat AR/XR seperti “tunjukkan sekrup sesuai manual pengguna”

3. Pemahaman layar

  • Mengenali layar desktop dan mobile OS secara akurat untuk mendukung otomatisasi penggunaan komputer
    • Dapat dimanfaatkan untuk otomatisasi tugas berulang, pengujian QA, onboarding pengguna, dan analisis UX
    • Mengenali elemen UI dan menentukan lokasi klik secara presisi

4. Pemahaman video

  • Video adalah format data paling kompleks, dan Gemini 3 Pro mampu menganalisisnya dengan kecepatan tinggi dan presisi tinggi
    • Dengan pemrosesan frame rate tinggi (>1 FPS), model ini dapat mengenali gerakan cepat dan menganalisis gerakan halus seperti ayunan golf
    • Pada pemrosesan 10 FPS, model ini bahkan dapat menangkap perpindahan bobot tubuh dan detail gerakan ayunan
  • Dengan mode ‘Thinking’, model ini meluas dari pengenalan objek sederhana ke penalaran video yang melacak sebab dan akibat
    • Memahami bukan hanya ‘apa’ yang terjadi, tetapi juga ‘mengapa’
  • Dapat menganalisis video panjang dan mengubahnya menjadi kode aplikasi atau informasi terstruktur, sehingga memperkuat keterkaitan antara video dan kode

5. Bidang pemanfaatan nyata

  • Bidang pendidikan: meningkatkan kemampuan pemecahan masalah matematika dan sains yang berpusat pada diagram
    • Menangani soal penalaran multimodal dari tingkat menengah hingga universitas
    • Menganalisis teka-teki matematika visual seperti [Math Kangaroo] serta diagram kimia dan fisika yang kompleks
    • Dikombinasikan dengan [Nano Banana Pro] untuk menandai kesalahan pada tugas siswa secara visual
  • Kesehatan dan ilmu hayati: mencatat performa tertinggi pada benchmark citra medis seperti MedXpertQA-MM, VQA-RAD, dan MicroVQA
    • Dapat digunakan untuk tanya jawab citra radiologi dan riset biologi berbasis mikroskop
  • Hukum dan keuangan: mendukung otomatisasi pemrosesan dokumen profesional dengan menganalisis tabel dan grafik dalam laporan serta kontrak yang kompleks

6. Kontrol resolusi media

  • Meningkatkan kualitas dengan mempertahankan rasio aspek asli saat memproses input visual
  • Dengan parameter media_resolution, pengguna dapat menyesuaikan keseimbangan antara performa dan biaya
    • High resolution: cocok untuk OCR detail dan pemahaman dokumen yang kompleks
    • Low resolution: mengoptimalkan biaya dan latensi saat pengenalan adegan atau pemrosesan konteks panjang
  • Detail pengaturan dapat dilihat di [Gemini 3.0 Documentation Guide]

Akses developer

  • Gemini 3 Pro dapat diuji langsung di Google AI Studio, dan
    melalui dokumentasi developer, tersedia dukungan untuk integrasi API dan pemanfaatan model

Belum ada komentar.

Belum ada komentar.