- Gemini 2.5 adalah model AI berbasis penalaran paling cerdas yang dirancang untuk memecahkan masalah kompleks
- Rilis perdananya, Gemini 2.5 Pro Experimental, mencatat performa terbaik di berbagai benchmark AI
- Secara khusus, model ini menempati peringkat 1 di LMArena dengan selisih yang besar
- Berbeda dari model sebelumnya, model ini dirancang dengan struktur yang menjalani proses berpikir sendiri sebelum merespons, sehingga akurasi dan performanya meningkat
Apa itu kemampuan 'berpikir' dalam AI?
- Ini melampaui klasifikasi atau prediksi sederhana, dan mencakup kemampuan kognitif tingkat tinggi seperti analisis informasi, menarik kesimpulan logis, memahami konteks, dan pengambilan keputusan
- Untuk itu, DeepMind telah meneliti kemampuan penalaran AI dengan memanfaatkan reinforcement learning dan teknik prompt Chain-of-Thought
- Model ini menunjukkan performa yang selangkah lebih maju dibanding model Gemini 2.0 Flash Thinking yang sudah ada
Arah ke depan
- Melalui Gemini 2.5, Google menggabungkan model dasar yang ditingkatkan dan teknik pascapemrosesan untuk mencapai tingkat performa baru
- Ke depannya, kemampuan berpikir ini akan dipasang sebagai fitur dasar pada semua model Gemini, sehingga memungkinkan penyelesaian masalah yang lebih kompleks dan dukungan agen yang lebih canggih
Memperkenalkan Gemini 2.5 Pro
- Gemini 2.5 Pro Experimental menunjukkan performa unggul untuk menangani tugas paling kompleks di antara model yang pernah dikembangkan sejauh ini
- Menempati peringkat 1 dengan selisih besar di LMArena, yang mengevaluasi berdasarkan preferensi manusia
- Juga menunjukkan performa sangat baik pada benchmark coding, matematika, dan sains
- Saat ini tersedia di Google AI Studio dan aplikasi Gemini, serta akan segera hadir di Vertex AI
- Ke depannya, paket berbayar akan diperkenalkan agar layanan dapat diperluas dengan batas pemanggilan yang lebih tinggi
Peningkatan performa penalaran
- Mencatat hasil benchmark kelas teratas dalam menyelesaikan masalah logika kompleks
- Tetap mempertahankan performa unggul tanpa teknik pengujian tambahan yang mahal (misalnya voting mayoritas)
- Menunjukkan performa terdepan pada soal matematika dan sains seperti GPQA dan AIME 2025
- Mencatat skor terbaik di industri, 18,8% tanpa alat bantu, pada 'Humanity’s Last Exam', tes penalaran tingkat tinggi yang dirancang oleh ratusan pakar
Performa coding tingkat lanjut
- Performa coding meningkat signifikan dibanding Gemini 2.0
- Sangat unggul dalam pembuatan web app, penulisan kode berbasis agen, serta transformasi dan perbaikan kode
- Mencapai 63,8% pada evaluasi SWE-Bench Verified saat menggunakan agen yang disesuaikan
- Ada juga contoh yang menunjukkan model ini dapat membuat video game yang bisa dijalankan hanya dengan satu baris prompt
Mewarisi keunggulan model Gemini
- Gemini 2.5 tetap mempertahankan keunggulan model Gemini sebelumnya, yaitu pemrosesan multimodal dan jendela konteks panjang
- Mendukung jendela konteks 1 juta token (akan diperluas menjadi 2 juta dalam waktu dekat)
- Dapat memproses secara terpadu berbagai sumber informasi seperti teks, audio, gambar, video, dan seluruh repositori kode
- Developer dan pengguna enterprise dapat bereksperimen dan menguji model ini melalui Google AI Studio, Gemini Advanced, Vertex AI, dan lainnya
3 komentar
Mengungguli claud dan gpt4.5, tapi tetap tidak bisa mengalahkan saat grok3 dicoba beberapa kali.
grok3 memang luar biasa.
Dengan hadirnya Gemini 2.5 Pro di Google AI Studio, semua Gemini 2.0 Pro yang sebelumnya ada jadi hilang.. Padahal saya cukup sering memakainya secara gratis, jadi agak disayangkan. Untuk Gemini 2.5 Pro, batasan 2 kali per menit dan hanya bisa dipanggil sampai 50 kali per hari rasanya cukup besar.
Opini Hacker News
Salah satu masalah terbesar saat menggunakan LLM untuk menulis teks panjang seperti novel adalah ketika diberi detail, model cenderung bereaksi terlalu gelisah
Selama ini saya menggunakan teka-teki matematika untuk melakukan benchmark pada berbagai model
Model ini bekerja sangat baik dalam transkripsi audio dan tugas menggambar kotak pembatas di sekitar makhluk hidup dalam foto yang kompleks
Model ini mencatat performa terbaik dengan cara yang belum pernah terjadi sebelumnya di benchmark
Gemini 2.5 Pro mencatat SOTA dengan skor 73% di aider polyglot leaderboard
Pengumuman seperti ini mulai terasa seperti template
Gemini 2.5 mencapai tingkat performa baru dengan menggabungkan model dasar yang sangat ditingkatkan dan post-processing yang lebih baik
Saya menggunakan test case yang memberi LLM seluruh codebase dan deskripsi bug untuk mengidentifikasi penyebab bug di library Dart
Jika berencana menggunakan Gemini, ada beberapa hal yang perlu diperhatikan
Model 2.0 masih belum terlalu lama, jadi saya penasaran kenapa namanya diberi +0.5