3 poin oleh GN⁺ 2025-12-06 | 3 komentar | Bagikan ke WhatsApp
  • Gemini 3 Pro adalah model multimodal generasi berikutnya yang melampaui tahap pengenalan sederhana dan mampu melakukan penalaran visual dan spasial
  • Mencatat performa terdepan di berbagai bidang seperti pemahaman dokumen, ruang, layar, dan video, serta mencapai tingkat tertinggi pada benchmark penalaran visual yang kompleks
  • Dalam pemahaman dokumen, model ini menghadirkan kemampuan penalaran tingkat lanjut seperti OCR yang akurat dan pemulihan struktur (derendering), serta analisis tabel dan grafik multilangkah
  • Dalam pemahaman ruang, layar, dan video, model ini memperkuat kemampuan interaksi dengan lingkungan nyata melalui pointing berbasis koordinat, analisis frame berkecepatan tinggi, dan pelacakan sebab dalam video
  • Mendukung pemahaman visual presisi dan otomatisasi di berbagai industri seperti pendidikan, kesehatan, hukum, dan keuangan, sementara developer dapat menyesuaikan performa dan biaya dengan parameter media_resolution

Ikhtisar Gemini 3 Pro

  • Gemini 3 Pro adalah model yang berkembang dari pengenalan sederhana menjadi penalaran visual dan spasial, dan merupakan model multimodal paling kuat yang dikembangkan Google
    • Mencetak skor tertinggi benchmark terbaru di seluruh area pemahaman dokumen, ruang, layar, dan video
    • Mencapai performa terbaik baru pada pengujian penalaran visual kompleks seperti MMMU Pro dan Video MMMU

1. Pemahaman dokumen

  • Dokumen dunia nyata mencampurkan elemen tidak terstruktur seperti gambar, tulisan tangan, tabel, dan rumus, dan Gemini 3 Pro mampu mengenali serta menstrukturkannya dengan akurat
    • Akurasi OCR dan kemampuan penalaran visual meningkat signifikan
  • Melalui fitur derendering, dokumen visual dapat dipulihkan menjadi kode terstruktur seperti HTML, LaTeX, dan Markdown
    • Dapat mengubah buku besar pedagang abad ke-18 menjadi tabel, atau merekonstruksi gambar rumus menjadi kode LaTeX
    • Mereproduksi diagram asli Florence Nightingale menjadi grafik interaktif
  • Dengan kemampuan penalaran gabungan, model ini menganalisis tabel dan grafik dalam laporan panjang secara bertahap
    • Pada benchmark CharXiv Reasoning, model ini melampaui tolok ukur manusia (80,5%)
    • Pada contoh laporan Biro Sensus Amerika Serikat, model ini secara akurat menyimpulkan penyebab perubahan indeks Gini dengan mengaitkan analisis angka dan kebijakan, seperti berakhirnya kebijakan ARPA dan stimulus ekonomi
    • Menyimpulkan melalui perbandingan tabel bahwa proporsi kuintil pendapatan terbawah meningkat

2. Pemahaman ruang

  • Gemini 3 Pro adalah versi dengan kemampuan pemahaman spasial paling kuat, yang dioptimalkan untuk memahami dunia fisik
    • Dengan output koordinat tingkat piksel, model ini dapat menunjuk lokasi tertentu di dalam gambar secara akurat
    • Menggunakan titik 2D berurutan untuk melakukan estimasi pose manusia atau pelacakan lintasan
  • Dengan fitur referensi open vocabulary, model ini dapat mengidentifikasi objek dan maksud
    • Memungkinkan pembuatan rencana berbasis ruang seperti memberi robot instruksi “pilah sampah di meja ini”
    • Mendukung pelaksanaan instruksi visual pada perangkat AR/XR seperti “tunjukkan sekrup sesuai manual pengguna”

3. Pemahaman layar

  • Mengenali layar desktop dan mobile OS secara akurat untuk mendukung otomatisasi penggunaan komputer
    • Dapat dimanfaatkan untuk otomatisasi tugas berulang, pengujian QA, onboarding pengguna, dan analisis UX
    • Mengenali elemen UI dan menentukan lokasi klik secara presisi

4. Pemahaman video

  • Video adalah format data paling kompleks, dan Gemini 3 Pro mampu menganalisisnya dengan kecepatan tinggi dan presisi tinggi
    • Dengan pemrosesan frame rate tinggi (>1 FPS), model ini dapat mengenali gerakan cepat dan menganalisis gerakan halus seperti ayunan golf
    • Pada pemrosesan 10 FPS, model ini bahkan dapat menangkap perpindahan bobot tubuh dan detail gerakan ayunan
  • Dengan mode ‘Thinking’, model ini meluas dari pengenalan objek sederhana ke penalaran video yang melacak sebab dan akibat
    • Memahami bukan hanya ‘apa’ yang terjadi, tetapi juga ‘mengapa’
  • Dapat menganalisis video panjang dan mengubahnya menjadi kode aplikasi atau informasi terstruktur, sehingga memperkuat keterkaitan antara video dan kode

5. Bidang pemanfaatan nyata

  • Bidang pendidikan: meningkatkan kemampuan pemecahan masalah matematika dan sains yang berpusat pada diagram
    • Menangani soal penalaran multimodal dari tingkat menengah hingga universitas
    • Menganalisis teka-teki matematika visual seperti [Math Kangaroo] serta diagram kimia dan fisika yang kompleks
    • Dikombinasikan dengan [Nano Banana Pro] untuk menandai kesalahan pada tugas siswa secara visual
  • Kesehatan dan ilmu hayati: mencatat performa tertinggi pada benchmark citra medis seperti MedXpertQA-MM, VQA-RAD, dan MicroVQA
    • Dapat digunakan untuk tanya jawab citra radiologi dan riset biologi berbasis mikroskop
  • Hukum dan keuangan: mendukung otomatisasi pemrosesan dokumen profesional dengan menganalisis tabel dan grafik dalam laporan serta kontrak yang kompleks

6. Kontrol resolusi media

  • Meningkatkan kualitas dengan mempertahankan rasio aspek asli saat memproses input visual
  • Dengan parameter media_resolution, pengguna dapat menyesuaikan keseimbangan antara performa dan biaya
    • High resolution: cocok untuk OCR detail dan pemahaman dokumen yang kompleks
    • Low resolution: mengoptimalkan biaya dan latensi saat pengenalan adegan atau pemrosesan konteks panjang
  • Detail pengaturan dapat dilihat di [Gemini 3.0 Documentation Guide]

Akses developer

  • Gemini 3 Pro dapat diuji langsung di Google AI Studio, dan
    melalui dokumentasi developer, tersedia dukungan untuk integrasi API dan pemanfaatan model

3 komentar

 
y15un 2025-12-06

Semuanya sudah bagus, jadi saya harap kebiasaan menyisipkan video YouTube dengan melawan instruksi pengguna bisa diperbaiki. Saat menjawab, video itu terus otomatis diputar dan mengganggu konsentrasi, jadi saya bahkan sudah melarang video lewat personal context, tetapi kadang masih diabaikan dan videonya tetap disodorkan. Menjengkelkan...

 
colus001 2025-12-08

Saat saya cuma minta dibuatkan daftar, tiba-tiba malah disuruh menghubungkan Google Drive wkwk

 
GN⁺ 2025-12-06
Komentar Hacker News
  • Dalam tes gambar LLM yang saya buat, akhirnya ada model yang untuk pertama kalinya mendapat skor parsial
    Tesnya adalah menghitung jumlah kaki pada anjing berkaki 5, dan sebagian besar LLM keras kepala mengklaim jumlahnya 4
    GPT-5 bahkan menulis sendiri skrip deteksi tepi untuk menemukan batas antara “telapak anjing berwarna keemasan” dan “rumput hijau terang”, lalu mencoba membuktikan bahwa jumlahnya 4, tetapi ketika sebenarnya menemukan 5, ia menganggap itu bug dan menyesuaikan sensitivitasnya
    Gemini 3 awalnya juga salah menghitung jumlah kaki, tetapi ia mengenali “struktur anatomi pria” di foto. Artinya, kaki ke-5 memang berada di posisi itu
    Meski begitu, tetap sulit menyebutnya mengesankan
    Sebagai referensi, image slicer dari Meta berhasil mengenali 5 kaki dengan tepat. Semua anjing berkaki banyak itu dibuat dengan nano-banana

    • Saya juga meminta Gemini membuat gambar anjing dengan 5 kaki, tetapi gagal melakukannya dengan benar. Biasanya ia membuat anjing normal atau mengubah ekornya menjadi semacam aksesori aneh
      Saat saya meminta Gemini dan Grok menghitung jumlah kaki, keduanya tetap bersikeras jawabannya 4
      Ketika saya bilang Grok salah, ia jatuh ke dalam kebingungan ontologis, dan akhirnya menyimpulkan, “ini adalah foto ilusi optik terkenal, terlihat seperti anjing tanpa kepala, tetapi sebenarnya hanya punya tiga kaki”
      Tes seperti ini membuat kita kembali ke kenyataan setiap kali LLM mulai terasa benar-benar ‘cerdas’
    • Saya bukan ahli AI, tetapi saya punya tes gambar labirin yang gagal di semua model
      Kalau meminta LLM menggambar jalur optimal, semuanya gagal
      Ini hasil Nano Banana: tautan tes
    • Tes seperti ini terasa seperti pendekatan yang bias untuk menilai LLM berdasarkan cara kognisi manusia
      Selain menunjukkan bahwa model tidak berpikir seperti manusia, tidak banyak yang benar-benar terbukti
      Saya penasaran apakah prompt-nya secara eksplisit meminta model untuk “menafsirkan gambar ini secara sangat harfiah”, atau justru memang dirancang dengan niat untuk menipu
      Juga tidak jelas apakah kriteria keberhasilannya sekadar menjawab “5”, atau termasuk konteks percakapan
      Pada akhirnya, tes seperti ini terlihat seperti analisis yang tidak produktif untuk menilai tingkat kognisi LLM
    • Nano Banana 2 sebenarnya menghasilkan gambar anjing berkaki 5 yang cukup meyakinkan
      tautan hasil
      Tetapi model itu tidak ‘berpikir’ bahwa ia berhasil melakukannya
      Pada tahap penalaran terakhir, ia mengakui keterbatasannya sendiri dengan mengatakan “kaki kelima terus hilang”, lalu menyimpulkan bahwa ia “menyadari cacat tersebut tetapi tetap memberikan gambar terbaik yang bisa dibuat”
    • Ketika harus mengatasi konsep yang muncul tidak seimbang dalam data pelatihan, model cenderung kesulitan
      Misalnya, jika mencoba menghasilkan laba-laba yang kehilangan satu kaki, bintang bersudut 9, semanggi 5 daun, atau orang dengan jumlah jari berbeda, tingkat keberhasilannya bahkan tidak sampai 25%
      Khusus masalah jari, ini terasa ironis jika mengingat usaha besar yang dulu dilakukan untuk memperbaiki kesalahan anatomi pada SD 1.5
  • Saya bekerja pada gambar kelistrikan konstruksi dan kadang memberi LLM tugas-tugas sederhana
    Bahkan ketika diberi harness yang berantakan, model itu hampir langsung menyelesaikan tata letak stopkontak di ruangan dalam satu percobaan
    Jika kontrolnya dibuat sedikit lebih rinci, sepertinya dalam waktu dekat ia bisa menggantikan sebagian besar pekerjaan rekan-rekan saya

    • Saya berharap ada tongkat sihir yang bisa membuat alat seperti AVEVA atau AutoCAD terasa tidak terlalu menyiksa
      Orang yang seharusnya memperbaiki alat-alat seperti ini bukan para engineer penggunanya, melainkan perusahaan pembuat alat itu sendiri
      Mengandalkan akselerator pihak ketiga dengan reliabilitas rendah itu berbahaya
    • Saya ingin melihat contoh harness yang digunakan. Saya juga ingin bereksperimen
    • Klaim bahwa “AI tidak akan pernah bisa menggantikan kreativitas manusia” terasa seperti tiang gawang yang terus bergeser
      Cakupannya makin meluas, dari seni digital, manajemen proyek, engineering, sampai pekerjaan blue-collar
      Rasanya tidak ada yang ingat lagi bahwa dulu Turing test pernah jadi pembahasan serius
  • Jika peningkatan performa OCR ini diterapkan ke Google Books, dampaknya bisa luar biasa
    Dalam jangka panjang, ini bahkan bisa memungkinkan penyimpanan terkompresi buku langka di bawah $5,000
    Tulisan blog Anna’s Archive juga layak dibaca
    Akan bagus jika archive.org memakai ini alih-alih Tesseract. Hanya saja saya penasaran dengan biayanya

    • Ini struktur data flywheel yang sangat khas — model yang lebih baik → data yang lebih baik → model yang lebih baik
    • “Lebih banyak data untuk dewa data!”
  • Hasil ScreenSpot Pro menarik

    72.7% Gemini 3 Pro
    11.4% Gemini 2.5 Pro
    49.9% Claude Opus 4.5
    3.50% GPT-5.1
    

    Ini adalah tes penggunaan komputer GUI berbasis resolusi tinggi
    tautan paper

    • Beberapa bulan lalu saya terkejut melihat GPT-5 menunjukkan performa yang jauh lebih buruk daripada Opus 4.1 dan Gemini 2.5 dalam tes OCR sederhana
      Saya berencana mengujinya lagi dengan model terbaru
      blog terkait
    • Hasil GPT-5.1 terlalu rendah secara ekstrem. Apakah mungkin ada kehilangan informasi akibat downscaling?
    • Dengan tren seperti ini, akurasi tampaknya akan segera mencapai kisaran 90%
  • Untuk penulis artikel — tautan “HTML transcription” rusak
    Tautannya mengarah ke alamat Google internal

    • Lucu juga bahwa desain portal internal perusahaan hampir tidak berubah selama puluhan tahun. Gaya lawas itu terasa nostalgik
    • Saya Rohan, penulis artikelnya. Terima kasih atas laporannya, baru saja saya perbaiki
    • Cukup mengejutkan bahwa tautan bantuan login bisa dibuka tanpa login
    • Tautan “See prompt in Google AI Studio” juga mengarah ke prompt privat
  • Nano Banana Pro masih belum bisa menyelesaikan teka-teki pencarian kata dengan sempurna
    Sebaliknya, Gemini 3 Pro with Code Execution menjawab benar dalam sekali coba dan bahkan menandai posisi katanya dengan akurat
    gambar puzzle, hasil Nano Banana1, hasil2
    Nano Banana hanya menemukan dua kata, tetapi ini tetap kemajuan besar dibanding sebelumnya
    Ini jenis masalah yang membutuhkan prapemrosesan yang detail, seperti mencocokkan huruf besar-kecil atau menghapus spasi

    • Saat memakai web app Gemini, sebaiknya jangan memulai dari mode pembuatan gambar sejak awal; lebih baik atur dulu alur prompt yang tepat di mode percakapan biasa, lalu baru minta pembuatan gambar
  • Disebut bahwa “Gemini 3 Pro adalah lompatan generasi dari pengenalan sederhana menuju penalaran spasial
    Tetapi ketika diminta membuat “gelas anggur yang penuh”, yang digambar justru gelas terisi 2/3
    Penalaran spasial yang sesungguhnya masih jauh

    • Gemini 3 Pro berbeda dari Nano Banana Pro, dan ketahanan model decoding gambarnya mungkin lebih lemah
      Nano Banana Pro lebih baik dalam menalar posisi kesalahan di dalam gambar
    • Saya juga mencoba prompt yang sama, dan setelah menambahkan sekali lagi “tolong isi sampai gelas hampir meluap”, hasilnya menjadi gelas yang terisi penuh sempurna
    • Sebaliknya, jika diberi gambar lalu ditanya “apakah gelas ini penuh?”, kemungkinan besar model bisa menjawab dengan tepat. Qwen-VL sudah bekerja baik dengan cara seperti itu
  • Pengumuman kali ini bukan tentang model baru, melainkan hanya menekankan contoh penggunaan visi nyata Gemini 3

  • Katanya fitur keluaran koordinat Gemini 3 bisa dipakai untuk pose estimation atau pelacakan lintasan,
    tetapi sayang tidak ada prompt atau dokumentasi yang konkret

    • Saya ingin fitur di CMS yang otomatis membingkai foto untuk berbagai rasio
      Misalnya, adakah model yang bisa memotong foto menjadi rasio wide, persegi, vertikal, dan 4:3? Saya belum menemukannya di Hugging Face
    • Blog Simon Willison yang terkait ini membantu: Bounding Box Visualization
  • Jika YouTube dengan deskripsi audio memungkinkan, itu akan benar-benar luar biasa
    Bahkan tanpa memainkannya sendiri, kita bisa mendengarkan playthrough naratif di mana Gemini mendeskripsikan adegan demi adegan

    • Saya menganalisis video Zelda TOTK tiap 5 detik untuk membuat deskripsi suara naratif
      video asli, skrip, suara TTS
      Karena videonya 144p, deskripsi detailnya agak meleset, tetapi penjelasan adegannya cukup akurat
    • Saya juga memproses video Witcher 3 berdurasi 1 jam pada 144p, dan dengan sekitar 300,000 token saya bisa dengan mudah membuat deskripsi per adegan
    • Saya mengunggah video pembuka 5 menit Zelda: Breath of the Wild ke aplikasi Gemini dan meminta deskripsi per adegan
      video asli, hasil gist
      Hasilnya cukup akurat sebagai deskripsi untuk penyandang tunanetra