Perbandingan coding Gemini 2.5 Pro dan Claude 3.7 Sonnet

(composio.dev)

9 poin oleh GN⁺ 2025-04-01 | 1 komentar | Bagikan ke WhatsApp

Gemini 2.5 Pro lebih unggul dalam penulisan kode
Claude 3.7 Sonnet juga sangat bagus, tetapi saat ini lebih menguntungkan menggunakan Gemini 2.5 Pro
Jendela konteks 1 juta token dan ketersediaan gratis menjadi keunggulan besar
Dulu Claude 3.7 Sonnet selalu menjadi tolok ukur perbandingan, tetapi sekarang sudah berubah

Pengenalan singkat Gemini 2.5 Pro

Model penalaran eksperimental yang dirilis Google pada 26 Maret 2025
Setelah dirilis, model ini memicu respons yang sangat besar di Twitter(X), YouTube, dan lainnya
Mencatat peringkat 1 di LMArena, serta menunjukkan performa yang sangat baik dalam penulisan kode, matematika, sains, pemahaman gambar, dan lain-lain
Menyediakan jendela konteks 1 juta token, dan 2 juta token juga telah diumumkan untuk ke depannya
Berdasarkan SWE Bench, akurasinya 63,8%, lebih tinggi daripada 62,3% milik Claude 3.7 Sonnet
Membuktikan performa unggul lewat berbagai contoh, termasuk demo game dinosaurus yang disediakan Google
Secara keseluruhan dinilai sebagai model serbaguna yang cocok bukan hanya untuk coding, tetapi untuk semua tugas intelektual

Perbandingan tes coding

1. Membuat flight simulator

Gemini 2.5 Pro
- Menghasilkan simulator yang berfungsi sempurna
- Memenuhi semua persyaratan, termasuk kontrol pesawat dan pembuatan kota bergaya Minecraft
- Tingkat penyelesaian 10/10
Claude 3.7 Sonnet
- Muncul masalah seperti pesawat terbang menyamping dan keluar dari area kota
- Tingkat kelengkapan fungsional rendah
Ringkasan: Gemini 2.5 Pro menang telak

2. Visualisasi dan penyelesaian Rubik's Cube

Gemini 2.5 Pro
- Langsung mengimplementasikan visualisasi dan penyelesaian yang akurat dalam sekali coba
- Menggunakan Three.js, dengan implementasi sempurna untuk warna kubus, pengacakan acak, animasi, dan lainnya
Claude 3.7 Sonnet
- Gagal menampilkan warna dan gagal menyelesaikan kubus
- Menunjukkan keterbatasan yang mirip dengan LLM lain
Ringkasan: Gemini 2.5 Pro juga sangat unggul pada item ini

3. Visualisasi bola memantul di dalam tesseract 4 dimensi

Gemini 2.5 Pro
- Memenuhi semua persyaratan, termasuk tumbukan fisika dan penyorotan sisi
- Kualitas kode dan kondisi eksekusi sangat baik
Claude 3.7 Sonnet
- Fungsinya berjalan, tetapi menambahkan warna yang tidak perlu
- Meski begitu, fitur yang diminta tetap terpenuhi
Ringkasan: Kedua model memenuhi persyaratan, dan Claude akhirnya juga berhasil

4. Soal LeetCode: mencari jumlah maksimum dengan menempatkan 3 rook

Gemini 2.5 Pro
- Menulis kode yang kompleks tetapi memberikan solusi yang benar
- Kompleksitas waktu juga dipertimbangkan dengan baik
Claude 3.7 Sonnet
- Menulis kode yang ringkas tetapi mengalami time limit exceeded (TLE)
- Mudah dipahami, tetapi kurang dalam hal performa
Ringkasan: Gemini 2.5 Pro unggul dalam performa dan akurasi

Kesimpulan

Gemini 2.5 Pro memiliki keunggulan yang jelas
- Unggul atas Claude 3.7 Sonnet dalam jendela konteks, akurasi, dan performa multitasking
Claude tetap merupakan model yang sangat baik, tetapi untuk saat ini menggunakan Gemini lebih efisien
Jika nantinya diperluas hingga jendela 2 juta token, performanya diperkirakan akan makin meningkat
Bersama model ringan Gemma 3 27B terbaru dari Google, ini membentuk jajaran AI yang kuat

1 komentar

GN⁺ 2025-04-01

Opini Hacker News

Ingin mengadakan kompetisi berhadiah uang tunai untuk masalah pemrograman nyata. Aturannya perlu ditetapkan. Diragukan apakah LLM bisa menyelesaikan masalah ini
- Membuat versi GTK 4 untuk Solvespace
- Ada satu file C++ untuk tiap platform
- Tujuannya adalah menulis ulang file GTK3 menjadi GTK4
- Jika ingin membuktikan kemampuan AI, disarankan untuk mendokumentasikan seluruh sesi dan menjadikannya video YouTube
- Ujian akhirnya adalah apakah PR akan diterima atau tidak
Gemini adalah satu-satunya model yang memberi tahu kapan percakapan akan terputus
- ChatGPT cenderung melupakan percakapan saat konteks sudah penuh
- Gemini masih kurang dalam hal alat, tetapi secara default terasa seperti model yang lebih baik
Menggunakan Gemini 2.5 Pro, dan menurut saya cukup bagus
- Claude 3.5 tampaknya lebih baik dalam mengikuti instruksi
- Kecewa dengan alat Cursor dan Claude CLI
- Suka cara Gemini menampilkan jendela konteks
- Saya rasa pasar tidak akan mampu menanggung valuasi perusahaan AI besar
- Terkadang model gratis justru lebih baik
Dalam persaingan model AI, pihak yang kalah tampaknya adalah Microsoft
- Saat ChatGPT adalah satu-satunya pilihan, Microsoft dianggap sebagai pemimpin
- Copilot adalah produk gagal, dan Bing tidak berhasil memanfaatkan AI
- Sundar Pichai dari Google disebut ingin membandingkannya dengan model Microsoft
Gemini 2.5 Pro mencatat skor tinggi di leaderboard pemrograman polyglot milik aider
- Terutama dipakai untuk pekerjaan rilis terbaru aider
- Saat ini masalah terbesar Gemini adalah batas kecepatan yang ketat
Dalam contoh Rubik's Cube, Gemini 2.5 menggunakan urutan pengacakan yang dihafal
- Kubus diselesaikan dengan membalik urutan scramble
Saat memakai Visual Basic era 90-an, membuat proyek baru dari template terasa menarik
- AI coding mirip dengan itu, tetapi terasa dibesar-besarkan
- Ada komentar bahwa Claude tampak bingung karena pesawatnya mengarah ke samping
Gemini 2.5 kurang bagus untuk kode Cython yang kompleks
- Claude dan o3 mengikuti instruksi dengan baik
- Gemini mencoba melakukan perubahan yang tidak relevan
Ada pertanyaan tentang apakah diskusi yang tidak bias memang diperlukan
- Tautan OP tampak seperti iklan bias untuk Composio
- Ada penjelasan yang terlalu dibesar-besarkan tentang Gemini 2.5 Pro
Semua tugas pengujian adalah proyek greenfield
- Untuk memakai LLM, perlu melakukan perubahan atau perbaikan pada proyek yang sudah ada
- Saya rasa pengujian seperti ini tidak bermakna untuk mengukur kegunaan model

Perbandingan coding Gemini 2.5 Pro dan Claude 3.7 Sonnet

Pengenalan singkat Gemini 2.5 Pro

Perbandingan tes coding

1. Membuat flight simulator

2. Visualisasi dan penyelesaian Rubik's Cube

3. Visualisasi bola memantul di dalam tesseract 4 dimensi

4. Soal LeetCode: mencari jumlah maksimum dengan menempatkan 3 rook

Kesimpulan

Bacaan terkait

1 komentar

Opini Hacker News