- Gemini 2.5 Pro lebih unggul dalam penulisan kode
- Claude 3.7 Sonnet juga sangat bagus, tetapi saat ini lebih menguntungkan menggunakan Gemini 2.5 Pro
- Jendela konteks 1 juta token dan ketersediaan gratis menjadi keunggulan besar
- Dulu Claude 3.7 Sonnet selalu menjadi tolok ukur perbandingan, tetapi sekarang sudah berubah
Pengenalan singkat Gemini 2.5 Pro
- Model penalaran eksperimental yang dirilis Google pada 26 Maret 2025
- Setelah dirilis, model ini memicu respons yang sangat besar di Twitter(X), YouTube, dan lainnya
- Mencatat peringkat 1 di LMArena, serta menunjukkan performa yang sangat baik dalam penulisan kode, matematika, sains, pemahaman gambar, dan lain-lain
- Menyediakan jendela konteks 1 juta token, dan 2 juta token juga telah diumumkan untuk ke depannya
- Berdasarkan SWE Bench, akurasinya 63,8%, lebih tinggi daripada 62,3% milik Claude 3.7 Sonnet
- Membuktikan performa unggul lewat berbagai contoh, termasuk demo game dinosaurus yang disediakan Google
- Secara keseluruhan dinilai sebagai model serbaguna yang cocok bukan hanya untuk coding, tetapi untuk semua tugas intelektual
Perbandingan tes coding
1. Membuat flight simulator
- Gemini 2.5 Pro
- Menghasilkan simulator yang berfungsi sempurna
- Memenuhi semua persyaratan, termasuk kontrol pesawat dan pembuatan kota bergaya Minecraft
- Tingkat penyelesaian 10/10
- Claude 3.7 Sonnet
- Muncul masalah seperti pesawat terbang menyamping dan keluar dari area kota
- Tingkat kelengkapan fungsional rendah
- Ringkasan: Gemini 2.5 Pro menang telak
2. Visualisasi dan penyelesaian Rubik's Cube
- Gemini 2.5 Pro
- Langsung mengimplementasikan visualisasi dan penyelesaian yang akurat dalam sekali coba
- Menggunakan Three.js, dengan implementasi sempurna untuk warna kubus, pengacakan acak, animasi, dan lainnya
- Claude 3.7 Sonnet
- Gagal menampilkan warna dan gagal menyelesaikan kubus
- Menunjukkan keterbatasan yang mirip dengan LLM lain
- Ringkasan: Gemini 2.5 Pro juga sangat unggul pada item ini
3. Visualisasi bola memantul di dalam tesseract 4 dimensi
- Gemini 2.5 Pro
- Memenuhi semua persyaratan, termasuk tumbukan fisika dan penyorotan sisi
- Kualitas kode dan kondisi eksekusi sangat baik
- Claude 3.7 Sonnet
- Fungsinya berjalan, tetapi menambahkan warna yang tidak perlu
- Meski begitu, fitur yang diminta tetap terpenuhi
- Ringkasan: Kedua model memenuhi persyaratan, dan Claude akhirnya juga berhasil
4. Soal LeetCode: mencari jumlah maksimum dengan menempatkan 3 rook
- Gemini 2.5 Pro
- Menulis kode yang kompleks tetapi memberikan solusi yang benar
- Kompleksitas waktu juga dipertimbangkan dengan baik
- Claude 3.7 Sonnet
- Menulis kode yang ringkas tetapi mengalami time limit exceeded (TLE)
- Mudah dipahami, tetapi kurang dalam hal performa
- Ringkasan: Gemini 2.5 Pro unggul dalam performa dan akurasi
Kesimpulan
- Gemini 2.5 Pro memiliki keunggulan yang jelas
- Unggul atas Claude 3.7 Sonnet dalam jendela konteks, akurasi, dan performa multitasking
- Claude tetap merupakan model yang sangat baik, tetapi untuk saat ini menggunakan Gemini lebih efisien
- Jika nantinya diperluas hingga jendela 2 juta token, performanya diperkirakan akan makin meningkat
- Bersama model ringan Gemma 3 27B terbaru dari Google, ini membentuk jajaran AI yang kuat
1 komentar
Opini Hacker News
Ingin mengadakan kompetisi berhadiah uang tunai untuk masalah pemrograman nyata. Aturannya perlu ditetapkan. Diragukan apakah LLM bisa menyelesaikan masalah ini
Gemini adalah satu-satunya model yang memberi tahu kapan percakapan akan terputus
Menggunakan Gemini 2.5 Pro, dan menurut saya cukup bagus
Dalam persaingan model AI, pihak yang kalah tampaknya adalah Microsoft
Gemini 2.5 Pro mencatat skor tinggi di leaderboard pemrograman polyglot milik aider
Dalam contoh Rubik's Cube, Gemini 2.5 menggunakan urutan pengacakan yang dihafal
Saat memakai Visual Basic era 90-an, membuat proyek baru dari template terasa menarik
Gemini 2.5 kurang bagus untuk kode Cython yang kompleks
Ada pertanyaan tentang apakah diskusi yang tidak bias memang diperlukan
Semua tugas pengujian adalah proyek greenfield