5 poin oleh GN⁺ 2025-03-29 | Belum ada komentar. | Bagikan ke WhatsApp
  • Gemini 2.5 Pro yang dirilis Google memang kurang mendapat sorotan karena peluncuran fitur pembuatan gambar GPT-4o yang mencolok, tetapi sebenarnya ini adalah kemajuan penting
  • Performa penulisan kodenya sangat unggul, dan dengan panjang konteks hingga 1 juta token, model ini mampu menangani seluruh codebase
  • Umpan balik pengguna juga sangat positif, dan model ini menunjukkan hasil yang sangat baik dalam pengujian coding nyata
  • Sebaliknya, pada masalah penalaran yang kompleks, performanya masih di bawah Grok 3 dan Claude 3.7 Sonnet

Peningkatan utama

  • Gemini 2.5 Pro meningkatkan performa melalui optimasi pascapelatihan dan perluasan parameter berdasarkan arsitektur Gemini 2.0 Flash
  • Mendukung panjang konteks hingga 1,000,000, sehingga dapat menghasilkan hasil yang baik bahkan ketika seluruh codebase dimasukkan
  • Pemahaman multibahasanya ditingkatkan, dan mencetak rekor pada pemrosesan bahasa Spanyol di peringkat LMSYS

Performa benchmark

  • Mencapai hasil unggul di berbagai benchmark utama seperti LMSYS, Livebench, GPQA, AIME, dan SWEbench verified
  • Pada ARC-AGI, performanya mirip Deepseek r1 dan di bawah Claude 3.7
  • Meraih peringkat 1 di benchmark WeirdML, dengan kemampuan luar biasa dalam menulis kode PyTorch yang bekerja untuk masalah ML yang tidak biasa
  • Juga memimpin di benchmark Aider Polyglot

Kasus penggunaan nyata

  • Menunjukkan hasil luar biasa pada berbagai contoh seperti soal Wordle, pembuatan shader, simulator penerbangan, Rubik's Cube, game zombie, dan game arcade
  • Khususnya pada tugas pembuatan game, model ini memberikan kualitas eksekusi yang halus dan berkelas tinggi

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - Perbandingan kemampuan coding

1. Bola memantul di dalam kubus 3D (Three.js)

  • Gemini 2.5: hasil terbaik dengan gerakan yang mulus dan realistis
  • Grok 3: awalnya cukup baik, tetapi seiring waktu bola saling menempel sehingga tidak berfungsi dengan benar
  • Claude 3.7: pengaturannya sangat bagus, tetapi bola berhenti dan interaksinya kurang

2. Game bergaya Minecraft (Pygame)

  • Gemini 2.5: gameplay halus dan rapi, memenuhi semua persyaratan
  • Claude 3.7: hasil tingkat lanjut dengan efek visual dan elemen UI
  • Grok 3: fungsi dasarnya berjalan, tetapi gerakan dan penempatannya kurang mulus

3. Web app Task Tracker

  • Gemini 2.5: UI matang dengan alur yang natural
  • Claude 3.7: rapi dan menarik secara visual
  • Grok 3: memenuhi kebutuhan, tetapi tingkat penyelesaiannya lebih rendah dibanding model lain

Kemampuan penalaran kompleks

1. Tes bias kognitif (masalah dokter dan anak laki-laki)

  • Claude 3.7 dan Grok 3 sama-sama menyelesaikan masalah dengan tepat
  • Gemini 2.5 menunjukkan sedikit kebingungan

2. Mencari langkah optimal pada tic-tac-toe

  • Ketiga model menghasilkan jawaban benar, tetapi Grok 3 memberikan analisis paling jelas
  • Namun, tidak ada model yang menemukan semua poin jawaban lengkap (nomor 3 dan 5)

3. Masalah hubungan kekerabatan yang kompleks

  • Claude 3.7 dengan tepat menghasilkan jawaban benar, yaitu 12 orang
  • Gemini 2.5 dan Grok 3 salah dengan jawaban 15 orang, meski logikanya masih dapat dipahami

Kemampuan matematika

1. Mencari GCD dari deret tak hingga

  • Hanya Gemini 2.5 yang menghasilkan jawaban benar
  • Grok 3 salah

2. Evaluasi rumus berdasarkan jumlah vokal

  • Hanya Claude 3.7 yang berhasil mencapai jawaban benar
  • Grok 3 tidak memahami konteks
  • Gemini 2.5 tidak pasti

Ringkasan kemampuan matematika

  • Untuk soal matematika murni, Gemini 2.5 Pro kuat
  • Untuk soal matematika yang bercampur penalaran, Claude 3.7 Sonnet lebih seimbang
  • Grok 3 memiliki performa matematika paling rendah

Kesimpulan

  • Gemini 2.5 Pro dari Google adalah model unggulan yang sangat dioptimalkan untuk penulisan kode, dan juga menunjukkan hasil luar biasa pada kasus penggunaan nyata
  • Pada masalah penalaran kompleks dan kemampuan berpikir, model ini sedikit tertinggal dibanding model pesaing
  • Kuat pada soal matematika, tetapi performanya menurun ketika penalaran logis ikut terlibat
  • Memiliki keunggulan besar dalam pemrosesan multibahasa dan penanganan input berukuran besar
  • Performa coding: sangat unggul
  • Kemampuan penalaran: lebih lemah dibanding Claude 3.7 dan Grok 3
  • Kemampuan matematika: sangat baik untuk perhitungan murni

Belum ada komentar.

Belum ada komentar.