9 poin oleh GN⁺ 2025-04-01 | 1 komentar | Bagikan ke WhatsApp
  • Gemini 2.5 Pro lebih unggul dalam penulisan kode
  • Claude 3.7 Sonnet juga sangat bagus, tetapi saat ini lebih menguntungkan menggunakan Gemini 2.5 Pro
  • Jendela konteks 1 juta token dan ketersediaan gratis menjadi keunggulan besar
  • Dulu Claude 3.7 Sonnet selalu menjadi tolok ukur perbandingan, tetapi sekarang sudah berubah

Pengenalan singkat Gemini 2.5 Pro

  • Model penalaran eksperimental yang dirilis Google pada 26 Maret 2025
  • Setelah dirilis, model ini memicu respons yang sangat besar di Twitter(X), YouTube, dan lainnya
  • Mencatat peringkat 1 di LMArena, serta menunjukkan performa yang sangat baik dalam penulisan kode, matematika, sains, pemahaman gambar, dan lain-lain
  • Menyediakan jendela konteks 1 juta token, dan 2 juta token juga telah diumumkan untuk ke depannya
  • Berdasarkan SWE Bench, akurasinya 63,8%, lebih tinggi daripada 62,3% milik Claude 3.7 Sonnet
  • Membuktikan performa unggul lewat berbagai contoh, termasuk demo game dinosaurus yang disediakan Google
  • Secara keseluruhan dinilai sebagai model serbaguna yang cocok bukan hanya untuk coding, tetapi untuk semua tugas intelektual

Perbandingan tes coding

1. Membuat flight simulator

  • Gemini 2.5 Pro
    • Menghasilkan simulator yang berfungsi sempurna
    • Memenuhi semua persyaratan, termasuk kontrol pesawat dan pembuatan kota bergaya Minecraft
    • Tingkat penyelesaian 10/10
  • Claude 3.7 Sonnet
    • Muncul masalah seperti pesawat terbang menyamping dan keluar dari area kota
    • Tingkat kelengkapan fungsional rendah
  • Ringkasan: Gemini 2.5 Pro menang telak

2. Visualisasi dan penyelesaian Rubik's Cube

  • Gemini 2.5 Pro
    • Langsung mengimplementasikan visualisasi dan penyelesaian yang akurat dalam sekali coba
    • Menggunakan Three.js, dengan implementasi sempurna untuk warna kubus, pengacakan acak, animasi, dan lainnya
  • Claude 3.7 Sonnet
    • Gagal menampilkan warna dan gagal menyelesaikan kubus
    • Menunjukkan keterbatasan yang mirip dengan LLM lain
  • Ringkasan: Gemini 2.5 Pro juga sangat unggul pada item ini

3. Visualisasi bola memantul di dalam tesseract 4 dimensi

  • Gemini 2.5 Pro
    • Memenuhi semua persyaratan, termasuk tumbukan fisika dan penyorotan sisi
    • Kualitas kode dan kondisi eksekusi sangat baik
  • Claude 3.7 Sonnet
    • Fungsinya berjalan, tetapi menambahkan warna yang tidak perlu
    • Meski begitu, fitur yang diminta tetap terpenuhi
  • Ringkasan: Kedua model memenuhi persyaratan, dan Claude akhirnya juga berhasil

4. Soal LeetCode: mencari jumlah maksimum dengan menempatkan 3 rook

  • Gemini 2.5 Pro
    • Menulis kode yang kompleks tetapi memberikan solusi yang benar
    • Kompleksitas waktu juga dipertimbangkan dengan baik
  • Claude 3.7 Sonnet
    • Menulis kode yang ringkas tetapi mengalami time limit exceeded (TLE)
    • Mudah dipahami, tetapi kurang dalam hal performa
  • Ringkasan: Gemini 2.5 Pro unggul dalam performa dan akurasi

Kesimpulan

  • Gemini 2.5 Pro memiliki keunggulan yang jelas
    • Unggul atas Claude 3.7 Sonnet dalam jendela konteks, akurasi, dan performa multitasking
  • Claude tetap merupakan model yang sangat baik, tetapi untuk saat ini menggunakan Gemini lebih efisien
  • Jika nantinya diperluas hingga jendela 2 juta token, performanya diperkirakan akan makin meningkat
  • Bersama model ringan Gemma 3 27B terbaru dari Google, ini membentuk jajaran AI yang kuat

1 komentar

 
GN⁺ 2025-04-01
Opini Hacker News
  • Ingin mengadakan kompetisi berhadiah uang tunai untuk masalah pemrograman nyata. Aturannya perlu ditetapkan. Diragukan apakah LLM bisa menyelesaikan masalah ini

    • Membuat versi GTK 4 untuk Solvespace
    • Ada satu file C++ untuk tiap platform
    • Tujuannya adalah menulis ulang file GTK3 menjadi GTK4
    • Jika ingin membuktikan kemampuan AI, disarankan untuk mendokumentasikan seluruh sesi dan menjadikannya video YouTube
    • Ujian akhirnya adalah apakah PR akan diterima atau tidak
  • Gemini adalah satu-satunya model yang memberi tahu kapan percakapan akan terputus

    • ChatGPT cenderung melupakan percakapan saat konteks sudah penuh
    • Gemini masih kurang dalam hal alat, tetapi secara default terasa seperti model yang lebih baik
  • Menggunakan Gemini 2.5 Pro, dan menurut saya cukup bagus

    • Claude 3.5 tampaknya lebih baik dalam mengikuti instruksi
    • Kecewa dengan alat Cursor dan Claude CLI
    • Suka cara Gemini menampilkan jendela konteks
    • Saya rasa pasar tidak akan mampu menanggung valuasi perusahaan AI besar
    • Terkadang model gratis justru lebih baik
  • Dalam persaingan model AI, pihak yang kalah tampaknya adalah Microsoft

    • Saat ChatGPT adalah satu-satunya pilihan, Microsoft dianggap sebagai pemimpin
    • Copilot adalah produk gagal, dan Bing tidak berhasil memanfaatkan AI
    • Sundar Pichai dari Google disebut ingin membandingkannya dengan model Microsoft
  • Gemini 2.5 Pro mencatat skor tinggi di leaderboard pemrograman polyglot milik aider

    • Terutama dipakai untuk pekerjaan rilis terbaru aider
    • Saat ini masalah terbesar Gemini adalah batas kecepatan yang ketat
  • Dalam contoh Rubik's Cube, Gemini 2.5 menggunakan urutan pengacakan yang dihafal

    • Kubus diselesaikan dengan membalik urutan scramble
  • Saat memakai Visual Basic era 90-an, membuat proyek baru dari template terasa menarik

    • AI coding mirip dengan itu, tetapi terasa dibesar-besarkan
    • Ada komentar bahwa Claude tampak bingung karena pesawatnya mengarah ke samping
  • Gemini 2.5 kurang bagus untuk kode Cython yang kompleks

    • Claude dan o3 mengikuti instruksi dengan baik
    • Gemini mencoba melakukan perubahan yang tidak relevan
  • Ada pertanyaan tentang apakah diskusi yang tidak bias memang diperlukan

    • Tautan OP tampak seperti iklan bias untuk Composio
    • Ada penjelasan yang terlalu dibesar-besarkan tentang Gemini 2.5 Pro
  • Semua tugas pengujian adalah proyek greenfield

    • Untuk memakai LLM, perlu melakukan perubahan atau perbaikan pada proyek yang sudah ada
    • Saya rasa pengujian seperti ini tidak bermakna untuk mengukur kegunaan model