- Gemini 2.5 Pro yang dirilis Google memang kurang mendapat sorotan karena peluncuran fitur pembuatan gambar GPT-4o yang mencolok, tetapi sebenarnya ini adalah kemajuan penting
- Performa penulisan kodenya sangat unggul, dan dengan panjang konteks hingga 1 juta token, model ini mampu menangani seluruh codebase
- Umpan balik pengguna juga sangat positif, dan model ini menunjukkan hasil yang sangat baik dalam pengujian coding nyata
- Sebaliknya, pada masalah penalaran yang kompleks, performanya masih di bawah Grok 3 dan Claude 3.7 Sonnet
Peningkatan utama
- Gemini 2.5 Pro meningkatkan performa melalui optimasi pascapelatihan dan perluasan parameter berdasarkan arsitektur Gemini 2.0 Flash
- Mendukung panjang konteks hingga 1,000,000, sehingga dapat menghasilkan hasil yang baik bahkan ketika seluruh codebase dimasukkan
- Pemahaman multibahasanya ditingkatkan, dan mencetak rekor pada pemrosesan bahasa Spanyol di peringkat LMSYS
Performa benchmark
- Mencapai hasil unggul di berbagai benchmark utama seperti LMSYS, Livebench, GPQA, AIME, dan SWEbench verified
- Pada ARC-AGI, performanya mirip Deepseek r1 dan di bawah Claude 3.7
- Meraih peringkat 1 di benchmark WeirdML, dengan kemampuan luar biasa dalam menulis kode PyTorch yang bekerja untuk masalah ML yang tidak biasa
- Juga memimpin di benchmark Aider Polyglot
Kasus penggunaan nyata
- Menunjukkan hasil luar biasa pada berbagai contoh seperti soal Wordle, pembuatan shader, simulator penerbangan, Rubik's Cube, game zombie, dan game arcade
- Khususnya pada tugas pembuatan game, model ini memberikan kualitas eksekusi yang halus dan berkelas tinggi
Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - Perbandingan kemampuan coding
1. Bola memantul di dalam kubus 3D (Three.js)
- Gemini 2.5: hasil terbaik dengan gerakan yang mulus dan realistis
- Grok 3: awalnya cukup baik, tetapi seiring waktu bola saling menempel sehingga tidak berfungsi dengan benar
- Claude 3.7: pengaturannya sangat bagus, tetapi bola berhenti dan interaksinya kurang
2. Game bergaya Minecraft (Pygame)
- Gemini 2.5: gameplay halus dan rapi, memenuhi semua persyaratan
- Claude 3.7: hasil tingkat lanjut dengan efek visual dan elemen UI
- Grok 3: fungsi dasarnya berjalan, tetapi gerakan dan penempatannya kurang mulus
3. Web app Task Tracker
- Gemini 2.5: UI matang dengan alur yang natural
- Claude 3.7: rapi dan menarik secara visual
- Grok 3: memenuhi kebutuhan, tetapi tingkat penyelesaiannya lebih rendah dibanding model lain
Kemampuan penalaran kompleks
1. Tes bias kognitif (masalah dokter dan anak laki-laki)
- Claude 3.7 dan Grok 3 sama-sama menyelesaikan masalah dengan tepat
- Gemini 2.5 menunjukkan sedikit kebingungan
2. Mencari langkah optimal pada tic-tac-toe
- Ketiga model menghasilkan jawaban benar, tetapi Grok 3 memberikan analisis paling jelas
- Namun, tidak ada model yang menemukan semua poin jawaban lengkap (nomor 3 dan 5)
3. Masalah hubungan kekerabatan yang kompleks
- Claude 3.7 dengan tepat menghasilkan jawaban benar, yaitu 12 orang
- Gemini 2.5 dan Grok 3 salah dengan jawaban 15 orang, meski logikanya masih dapat dipahami
Kemampuan matematika
1. Mencari GCD dari deret tak hingga
- Hanya Gemini 2.5 yang menghasilkan jawaban benar
- Grok 3 salah
2. Evaluasi rumus berdasarkan jumlah vokal
- Hanya Claude 3.7 yang berhasil mencapai jawaban benar
- Grok 3 tidak memahami konteks
- Gemini 2.5 tidak pasti
Ringkasan kemampuan matematika
- Untuk soal matematika murni, Gemini 2.5 Pro kuat
- Untuk soal matematika yang bercampur penalaran, Claude 3.7 Sonnet lebih seimbang
- Grok 3 memiliki performa matematika paling rendah
Kesimpulan
- Gemini 2.5 Pro dari Google adalah model unggulan yang sangat dioptimalkan untuk penulisan kode, dan juga menunjukkan hasil luar biasa pada kasus penggunaan nyata
- Pada masalah penalaran kompleks dan kemampuan berpikir, model ini sedikit tertinggal dibanding model pesaing
- Kuat pada soal matematika, tetapi performanya menurun ketika penalaran logis ikut terlibat
- Memiliki keunggulan besar dalam pemrosesan multibahasa dan penanganan input berukuran besar
- Performa coding: sangat unggul
- Kemampuan penalaran: lebih lemah dibanding Claude 3.7 dan Grok 3
- Kemampuan matematika: sangat baik untuk perhitungan murni
Belum ada komentar.