1 poin oleh GN⁺ 2025-06-07 | 1 komentar | Bagikan ke WhatsApp
  • Versi pratinjau terbaru Gemini 2.5 Pro kini tersedia sebelum rilis resmi
  • Di evaluasi utama seperti LMArena dan WebDevArena, model ini mencatat kenaikan Elo 24~35 poin dibanding model sebelumnya
  • Mencatat performa teratas di benchmark utama seperti coding, sains, matematika, pemahaman multimodal, dan pemrosesan konteks panjang
  • Dengan harga input $1.25 dan harga output $10 (per satu juta token), struktur biayanya lebih murah dibanding para pesaing

Perbandingan berdasarkan benchmark utama

  • Reasoning & Knowledge (Humanity's Last Exam): 21.6%, setara dengan OpenAI/Anthropic dan lebih unggul daripada DeepSeek R1 (14%)
  • Science (GPQA diamond): 86.4%, performa terbaik di industri (berdasarkan single attempt)
  • Mathematics (AIME 2025): 88.0%, setara dengan OpenAI o3 dan DeepSeek R1, lebih tinggi daripada Anthropic Claude 4/3
  • Code Generation/Editing: LiveCodeBench 69.0%, Aider Polyglot 82.2%, akurasi tinggi baik untuk pembuatan maupun penyuntingan kode
  • Agentic Coding (SWE-bench Verified): 59.6% (single), 67.2% (multi-attempt), sedikit di bawah Anthropic Claude 4 tetapi mirip dengan OpenAI/DeepSeek
  • Factuality: SimpleQA 54.0%, FACTS Grounding 87.8%, menunjukkan kekuatan dalam menghasilkan jawaban yang berbasis data nyata
  • Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval (gambar) 67.2%, VideoMMMU (video) 83.6%, kuat di teks, gambar, dan video
  • Long Context (MRCR v2, 128K): 58.0%, performa terbaik dibanding model pesaing utama seperti OpenAI, Anthropic, dan xAI

Harga dan bahasa yang didukung

  • Harga input: $1.25 / satu juta token ($2.50 untuk 200K ke atas)
  • Harga output: $10 / satu juta token ($15 untuk 200K ke atas)
  • Bahasa yang didukung: lebih dari 70 bahasa global (multilingual 89.2%)

Penggunaan dan fitur tambahan

  • Pratinjau dapat langsung digunakan di Google AI Studio dan Vertex AI
  • Menambahkan fitur kontrol biaya dan latensi untuk developer seperti Thinking Budget
  • Penguatan fitur yang cocok untuk penggunaan kerja nyata seperti coding, pengetahuan, multimodal, dan pemrosesan dokumen panjang

Kesimpulan

  • Gemini 2.5 Pro unggul dibanding pesaing dalam berbagai aspek seperti harga, performa, fleksibilitas, multimodal, dan konteks panjang
  • Saat mengadopsi AI untuk perusahaan maupun developer, perbandingan yang jelas berbasis benchmark utama dan efisiensi biaya dapat dipertimbangkan bersama

1 komentar

 
GN⁺ 2025-06-07
Komentar Hacker News
  • Saya terkesan Google menambah sekitar 25 ELO lagi di lmarena, dan itu membuat saya sadar bahwa peringkat #1 sebelumnya juga Gemini. Setelah cukup banyak memakai Gemini dan Claude Opus 4 selama beberapa minggu terakhir, menurut saya Opus terasa berada di level yang berbeda. Saat menangani masalah TypeScript yang kompleks, saya untuk pertama kalinya melihat Gemini berputar di bagian yang sama atau bahkan menyerah dan bilang tidak bisa, sementara Opus menyelesaikannya dengan mudah. Ini mungkin bukan gambaran menyeluruh tentang performa keseluruhan, tetapi perbedaannya terasa pada Gemini yang seperti memaksa kode agar sekadar berjalan, sedangkan Opus memahami inti masalah dan mendekatinya dengan cara yang lebih rapi. Saya juga merasa Opus punya imajinasi lebih kaya atau lebih dioptimalkan untuk tugas-tugas agentic. Saya sangat terkesan ketika Opus sekali waktu membuat solusi yang tak terduga, seperti menulis skrip playwright untuk dump DOM lalu menganalisisnya demi memeriksa isu interaksi. Gemini cenderung keras kepala membaca kode itu sendiri untuk mencari bug, tetapi saya merasa pendekatan itu ada batasnya. Meski begitu, Gemini tetap model yang hebat, dan sebelum versi 4.0 saya bahkan menganggapnya yang terbaik.

    • Secara pribadi saya malah lebih memilih o3 daripada Opus 4, dan setelah menghabiskan ratusan dolar untuk alat pembuat kode AI selama sebulan terakhir, saya membuat peringkat versi saya sendiri. Peringkat 1 adalah o3, sangat unggul dalam menangani detail kecil, memahami inti masalah, dan menulis kode berkualitas tinggi yang benar-benar layak dipakai di production. Kekurangannya adalah cutoff window, biaya, dan terlalu suka memakai tool. Untuk proyek Rails hampir tidak ada masalah, tetapi kadang tetap berpengaruh. Peringkat 2 adalah Opus 4 (dipakai lewat Claude Code), performanya bagus dan lebih murah daripada o3, jadi inilah yang paling sering saya pakai sehari-hari. Biasanya Opus 4 dipakai untuk perencanaan dan draf awal, lalu o3 mengkritiknya dengan teliti dan membuat daftar feedback untuk benar-benar memoles hasil akhirnya. Peringkat 3 adalah Gemini 2.5 Pro, saya belum mencoba rilis terbaru ini, tetapi sebelumnya ada di peringkat 2. Sekarang kira-kira setara dengan Sonnet 4 atau sedikit lebih baik, tergantung situasi. Peringkat 4 Sonnet 4, memang menghasilkan banyak kode, tetapi tanpa coaching dan pengawasan langsung, ia tidak benar-benar mengeluarkan kode yang sangat berkualitas, ringkas, dan mendalam. Saya cukup obsesif soal kualitas dan struktur kode, seperti penamaan dan reusability, jadi menurut statistik Cursor bulan lalu saya hanya menerima 33% dari kode autosuggestion. Jika jalurnya bukan yang paling optimal, saya terus memperbaiki permintaan yang keliru dan menyempurnakan prompt untuk mengejar hasil yang lebih baik.

    • Kelebihan terbesar Gemini dibanding model lain adalah kemampuan pencariannya. Saat saya minta menulis email ke pihak yang mengirim spam memakai domain perusahaan, ia menemukan email abuse dari penyedia hosting, informasi domain, server mx, IP, data center, dan semuanya. Ia juga langsung mengubah paper menjadi podcast, dan hasilnya cukup menyenangkan untuk didengarkan.

    • Minggu ini ketika saya memberi tugas yang sama ke Claude 4 dan Gemini 2.5, Gemini memberi jawaban yang benar dan Claude gagal mengerjakannya dengan baik. Bahkan untuk tugas yang tidak sesulit membandingkan query SQL pun, Gemini sering menemukan masalah yang nyata.

    • Dalam praktiknya, pengalaman saya sering terasa berbeda-beda tergantung situasi. Ada masalah yang diselesaikan Gemini dengan sangat lancar, tetapi tepat setelah itu ia bisa macet di bug yang sangat sederhana, dan itu membingungkan. Hal yang sama juga terjadi pada o3 dan sonnet, dan untuk 4.0 saya belum cukup memakainya jadi belum bisa menilai. Saya merasa perlu ada dukungan untuk mengevaluasi beberapa model secara paralel lalu memilih solusi terbaik.

    • Ada yang bertanya apakah saya juga sudah mengujinya dengan o3. Dalam use case saya, o3 jauh lebih mengesankan daripada Opus 4.

  • Dari sisi valuasi pasar OpenAI, saya makin khawatir. Kini ada banyak pesaing kuat, dan penilaian bahwa mereka bukan lagi pemimpin yang jauh di depan terasa cukup meyakinkan. Saya penasaran bagaimana mereka akan terus menggalang investasi pada valuasi 300 miliar dolar. Saat pendapatan kecil tetapi biaya seperti hardware dan listrik terus naik, sulit menilai nilai riilnya. Ketika generasi LLM berikutnya membutuhkan data baru, Facebook dan Google tampaknya akan punya keunggulan. OpenAI yang tidak punya banyak bisnis data sendiri menurut saya akan dirugikan dalam persaingan data eksklusif. Valuasi tinggi itu masuk akal saat mereka memimpin baik dalam riset maupun aplikasi pengguna, tetapi sekarang dasar kepercayaannya terasa tipis. Tidak jelas keuntungan apa yang akan diperoleh investor baru dari OpenAI. Pada valuasi 300 miliar dolar, biasanya dibutuhkan pendapatan 150 miliar, dan bahkan dengan P/E yang sangat ekstrem pun perlu laba 3 miliar per tahun dengan skenario pertumbuhan dua kali lipat selama 10 tahun berturut-turut, seperti Amazon di tahun 2000-an. Saat ini juga ada isu struktur nonprofit/for-profit, jadi IPO sendiri mungkin tidak mudah. Selamat untuk pencapaian Google, dan saya menilai mereka sangat mungkin menjadi pemenang terbesar dalam persaingan AI.

    • Ada pendapat bahwa banyak orang salah paham soal posisi OpenAI di pasar. "chatgpt" sudah menjadi kata kerja sehari-hari, sementara Claude atau Gemini sama sekali tidak dikenal oleh orang umum. Kecuali ada sesuatu yang benar-benar revolusioner, publik tidak punya alasan untuk pindah ke produk lain. Kemudahan riwayat percakapan, memori, dan struktur ekspor yang dimiliki ChatGPT saja sudah cukup menjadi hambatan untuk berpindah. Dengan 500 juta pengguna aktif, yang perlu dilakukan OpenAI hanyalah menjaga kualitas. Jika paradigma saat ini tetap bertahan, bahkan tanpa menjadi pemimpin pun mereka masih bisa mengejar teknologi perusahaan lain. Orang biasa tidak akan mengganti produk hanya karena ada sedikit peningkatan.

    • Ada koreksi bahwa perhitungan valuasinya salah. Bukan pendapatan dua kali dari 300 miliar dolar, melainkan pendapatan 150 miliar dolar. Namun poin dasarnya tetap valid.

    • Saat ini area yang jelas lebih unggul bagi OpenAI adalah pembuatan gambar. Ada pembeda dalam ilustrasi, komik, edit foto, dan perancangan ide proyek rumahan.

    • Ada pandangan bahwa meskipun Google menang dalam persaingan AI, bisnis pencariannya tetap akan tergerus, dan masih belum jelas apakah mereka bisa mengekstrak keuntungan ekonomi dari dominasi pasar melalui AI. Mereka memang terpaksa harus ikut bersaing, tetapi mungkin masa monopoli berbasis iklan dulu sebenarnya lebih nyaman.

    • Karena peluncuran o3 pro dan GPT 5 sudah dekat, ada pendapat bahwa masih terlalu dini untuk menyimpulkan OpenAI bukan lagi pemimpin. Jika kedua model itu tidak menunjukkan kemajuan yang mencolok, barulah kehilangan kepemimpinan layak dipertimbangkan. Untuk saat ini setidaknya rasanya mereka masih sejajar dengan Google dan lainnya.

  • Sudah membingungkan ketika model yang sama dirilis sampai tiga versi preview, lalu dua tanggal terakhirnya pun campur aduk antara 05-06 dan 06-05. Rasanya sayang, padahal kalau ditunda satu hari saja mungkin akan lebih jelas.

    • Karena format tanggalnya ambigu, sebenarnya harus ditunda sampai tanggal 13 agar tidak membingungkan. Di Kanada, format tanggal gaya Inggris dan Amerika bercampur sehingga benar-benar membingungkan. Belakangan ini format y-m-d sudah resmi diizinkan dan makin banyak dipakai.

    • Situasi membingungkan antara 05-06 dan 06-05 ini sendiri terasa seperti sedang terang-terangan mengejek model 4o dan o4 milik OpenAI.

    • Saya penasaran kapan Gemini 2.5 pro akan beralih ke 2.6 pro. Dugaan saya di Gemini 3 nanti ukurannya akan lebih besar.

    • Lelucon klasik: developer memang payah soal penamaan.

  • Ada dua masalah yang hanya saya rasakan di Gemini.

    1. Ia mengganti nama variabel meski saya tidak secara eksplisit memintanya.
    2. Kadang ia lupa menutup tanda kurung siku. Saya suka membuat nama variabel tetap singkat, jadi kadang hanya memakai "json", dan saya menghargai feedback, tetapi jika perubahan seperti itu terlalu banyak maka code review jadi sulit.
    • Saya memberi contoh kasus spesifik yang sering salah ditangani Gemini. Pada kode yang jelas-jelas menetapkan processing_class=tokenizer, meski sudah saya revisi berkali-kali, Gemini terus mengubahnya menjadi tokenizer=tokenizer. Bahkan ketika saya menambahkan komentar besar DO NOT CHANGE di seluruh bagian itu, ia tetap salah mengubahnya. Saya belum mencoba versi terbaru (06-05), tetapi di versi sebelumnya 05-06 kesalahan yang sama terus terulang.

    • Praktis o1-pro juga berada di jajaran teratas peringkat saya bersama Gemini. Tetapi Gemini terlalu sering menambahkan komentar yang tidak perlu dan perubahan kode yang tidak relevan, sehingga sulit dipakai untuk pekerjaan nyata. Untuk eksplorasi ide ia membantu, tetapi untuk solusi final saya memakai o1-pro.

    • Gemini benar-benar suka menambahkan komentar non-eksekusi yang konyol. Seperti # Added this function, # Changed this to fix the issue, dan semacamnya. Hal seperti itu lebih cocok untuk commit message atau PR, jadi cukup mengganggu ketika justru dimasukkan ke dalam kode.

    • ChatGPT juga sering sepenuhnya mengabaikan instruksi tertentu. Misalnya, meski sudah ditekankan berulang kali untuk tidak memakai em dash atau en dash, justru ia makin sering memasukkannya. Meski dicoba berkali-kali, saya belum pernah berhasil mengendalikannya dengan benar.

  • Saya berlangganan berbayar untuk ChatGPT Plus dan Gemini Pro. Saya mempertimbangkan berhenti dari ChatGPT karena terus terkena rate limit. Sementara itu, di Gemini/AI Studio saya belum pernah sekalipun kena rate limit.

    • AI Studio sebenarnya memakai akun API di backend, dan project Google Cloud free tier dibuat otomatis. Di bagian bawah halaman "get an api key" Anda bisa menghubungkan akun penagihan. API free tier mungkin tidak termasuk penggunaan komersial menurut persyaratan layanan Google, sehingga prompt bisa ditinjau manusia dan dipakai sebagai data training.

    • Karena AI Studio memakai API, pada praktiknya sangat jarang pengguna biasa mencapai batas untuk model preview berbayar.

    • Saya jauh lebih menyukai Gemini daripada ChatGPT, tetapi belakangan paket Pro mendapat batas 100 pesan per hari. AI Studio tampaknya masih belum punya batas.

    • Saya penasaran apakah ada alasan tertentu untuk tidak memakai API lewat perantara seperti openrouter.

  • Model Gemini sebelumnya terasa kalah dari Claude 3.7 Sonnet untuk bantuan coding, setidaknya bagi saya, dan 4 malah terasa lebih buruk. Saya tidak berniat mencoba versi baru sampai ada evaluasi langsung. Karena pujian terhadap Gemini di internet terlalu berbeda dari pengalaman pribadi saya, saya curiga ada campuran pemasaran terang-terangan atau hype buatan.

    • Ada pendapat bahwa penilaian model apa pun pada akhirnya bergantung pada apa yang benar-benar Anda kerjakan. Claude 3.5/3.7 Sonnet benar-benar tidak berguna untuk C/C++/Make/CMake. Pengalaman saya buruk: informasi salah, mengembalikan kode yang mustahil, membuat sintaks/API tak bermakna, dan kontradiksi logis. Gemini 2.5-pro dan o3 jauh lebih baik, sampai seluruh tim saya pun menganggap keduanya unggul. Mungkin Claude kuat di TypeScript atau Ruby, tetapi setidaknya untuk pekerjaan saya, Gemini memang lebih dari sekadar iklan berlebihan.

    • Saya belum mencoba Claude, tetapi Gemini selalu memberi jawaban yang lebih baik daripada ChatGPT atau Copilot untuk pertanyaan sehari-hari. Terutama untuk use case pencarian seperti cara command line atau informasi produk, Gemini jelas punya keunggulan.

    • Di Aider saya bergantian memakai Sonnet dan Gemini. Anehnya, ada masalah yang hanya bisa diselesaikan oleh satu model saja, dan tidak ada pola yang bisa diketahui sebelumnya.

    • Ada pendapat bahwa Claude 3.7 Sonnet lebih baik sebagai coding assistant dibanding Gemini, tetapi untuk data science atau Python ETL yang kompleks, Claude mengecewakan dan o3 jauh lebih unggul.

    • Di Roo Code, Claude lebih baik dalam penggunaan tool, tetapi gaya kode Gemini yang ringkas lebih sesuai selera saya. Saya mencampur keduanya, atau memakai yang lain jika salah satunya gagal, untuk menyelesaikan masalah.

  • Saya berharap mereka berhenti terus merilis versi preview hanya dengan mengganti tanggal, dan cukup menaikkan nomor patch saja.

    • Agar tidak memengaruhi ekosistem yang dibangun di atas versi lama, setiap pembaruan besar memang sebaiknya dipisah menjadi model baru.
  • Di Aider tercatat skor 82.2. Namun pada kenyataannya, itu masih tertinggal dari skor resmi o3 high. Tautan leaderboard Aider.

    • Ada yang bertanya apakah 82.2 itu setara dengan metrik Percent correct pada model lain. pure o3 (high) ada di 79.6%, sedangkan kombinasi o3 (high) + gpt-4.1 tertinggi di 82.7%. Gemini 2.5 Pro Preview 05-06 yang lama ada di sekitar 76.9%. Jadi ini dinilai sebagai lompatan yang cukup besar. Benchmark Aider saat ini dianggap benchmark yang paling tepercaya.

    • Yang terutama mengejutkan adalah bahwa model ini jauh lebih murah dan lebih cepat.

    • Perlu dicatat, skor yang disebut itu adalah untuk preview lama 05-06, bukan versi baru yang dirilis hari ini.

  • Ada referensi ke sebuah tweet yang menyebut 06-05 menutup jarak antara 03-25 dan 05-06. Tweet terkait

  • Saya tertarik membandingkan kodenya dengan Claude 4 Sonnet. Menurut tabel di blog ini, model ini ditandai jelas lebih rendah daripada Claude 4 Sonnet.

    • Faktanya, sebagian besar benchmark memang terkait programming, dan hanya di SWE-Bench Claude mendapat skor lebih tinggi. Sulit menilai benchmark mana yang paling mencerminkan pekerjaan nyata, tetapi di komunitas reputasi Aider Polyglot cukup tinggi.