9 poin oleh GN⁺ 2025-03-26 | 3 komentar | Bagikan ke WhatsApp
  • Gemini 2.5 adalah model AI berbasis penalaran paling cerdas yang dirancang untuk memecahkan masalah kompleks
  • Rilis perdananya, Gemini 2.5 Pro Experimental, mencatat performa terbaik di berbagai benchmark AI
  • Secara khusus, model ini menempati peringkat 1 di LMArena dengan selisih yang besar
  • Berbeda dari model sebelumnya, model ini dirancang dengan struktur yang menjalani proses berpikir sendiri sebelum merespons, sehingga akurasi dan performanya meningkat

Apa itu kemampuan 'berpikir' dalam AI?

  • Ini melampaui klasifikasi atau prediksi sederhana, dan mencakup kemampuan kognitif tingkat tinggi seperti analisis informasi, menarik kesimpulan logis, memahami konteks, dan pengambilan keputusan
  • Untuk itu, DeepMind telah meneliti kemampuan penalaran AI dengan memanfaatkan reinforcement learning dan teknik prompt Chain-of-Thought
  • Model ini menunjukkan performa yang selangkah lebih maju dibanding model Gemini 2.0 Flash Thinking yang sudah ada

Arah ke depan

  • Melalui Gemini 2.5, Google menggabungkan model dasar yang ditingkatkan dan teknik pascapemrosesan untuk mencapai tingkat performa baru
  • Ke depannya, kemampuan berpikir ini akan dipasang sebagai fitur dasar pada semua model Gemini, sehingga memungkinkan penyelesaian masalah yang lebih kompleks dan dukungan agen yang lebih canggih

Memperkenalkan Gemini 2.5 Pro

  • Gemini 2.5 Pro Experimental menunjukkan performa unggul untuk menangani tugas paling kompleks di antara model yang pernah dikembangkan sejauh ini
  • Menempati peringkat 1 dengan selisih besar di LMArena, yang mengevaluasi berdasarkan preferensi manusia
  • Juga menunjukkan performa sangat baik pada benchmark coding, matematika, dan sains
  • Saat ini tersedia di Google AI Studio dan aplikasi Gemini, serta akan segera hadir di Vertex AI
  • Ke depannya, paket berbayar akan diperkenalkan agar layanan dapat diperluas dengan batas pemanggilan yang lebih tinggi

Peningkatan performa penalaran

  • Mencatat hasil benchmark kelas teratas dalam menyelesaikan masalah logika kompleks
  • Tetap mempertahankan performa unggul tanpa teknik pengujian tambahan yang mahal (misalnya voting mayoritas)
  • Menunjukkan performa terdepan pada soal matematika dan sains seperti GPQA dan AIME 2025
  • Mencatat skor terbaik di industri, 18,8% tanpa alat bantu, pada 'Humanity’s Last Exam', tes penalaran tingkat tinggi yang dirancang oleh ratusan pakar

Performa coding tingkat lanjut

  • Performa coding meningkat signifikan dibanding Gemini 2.0
  • Sangat unggul dalam pembuatan web app, penulisan kode berbasis agen, serta transformasi dan perbaikan kode
  • Mencapai 63,8% pada evaluasi SWE-Bench Verified saat menggunakan agen yang disesuaikan
  • Ada juga contoh yang menunjukkan model ini dapat membuat video game yang bisa dijalankan hanya dengan satu baris prompt

Mewarisi keunggulan model Gemini

  • Gemini 2.5 tetap mempertahankan keunggulan model Gemini sebelumnya, yaitu pemrosesan multimodal dan jendela konteks panjang
  • Mendukung jendela konteks 1 juta token (akan diperluas menjadi 2 juta dalam waktu dekat)
  • Dapat memproses secara terpadu berbagai sumber informasi seperti teks, audio, gambar, video, dan seluruh repositori kode
  • Developer dan pengguna enterprise dapat bereksperimen dan menguji model ini melalui Google AI Studio, Gemini Advanced, Vertex AI, dan lainnya

3 komentar

 
wowfoot 2025-03-26

Mengungguli claud dan gpt4.5, tapi tetap tidak bisa mengalahkan saat grok3 dicoba beberapa kali.
grok3 memang luar biasa.

 
zxshinxz 2025-03-26

Dengan hadirnya Gemini 2.5 Pro di Google AI Studio, semua Gemini 2.0 Pro yang sebelumnya ada jadi hilang.. Padahal saya cukup sering memakainya secara gratis, jadi agak disayangkan. Untuk Gemini 2.5 Pro, batasan 2 kali per menit dan hanya bisa dipanggil sampai 50 kali per hari rasanya cukup besar.

 
GN⁺ 2025-03-26
Opini Hacker News
  • Salah satu masalah terbesar saat menggunakan LLM untuk menulis teks panjang seperti novel adalah ketika diberi detail, model cenderung bereaksi terlalu gelisah

    • Misalnya, jika diberi profil tokoh cinta dalam fantasi epik, protagonis hampir selalu bertemu dengan mereka dalam waktu kurang dari 3 halaman
    • Ini adalah perkembangan yang tidak logis, dan upaya untuk mengubahnya tidak efektif
    • Model saat ini masih menunjukkan perkembangan yang normal bahkan setelah menghasilkan 19 halaman, sambil memasukkan banyak detail
    • Sangat mengesankan
  • Selama ini saya menggunakan teka-teki matematika untuk melakukan benchmark pada berbagai model

    • Teka-teki ini membutuhkan sekitar 3 hari untuk diselesaikan dengan komputer, dan seorang lulusan matematika menyelesaikannya dengan tangan dalam sehari
    • Gemini 2.5 adalah model pertama yang berhasil menyelesaikan teka-teki ini, yang berarti LLM kini lebih unggul dalam penalaran matematika daripada lebih dari 95% populasi
    • Teka-tekinya adalah tiga orang berdiri melingkar, dan di atas kepala masing-masing melayang sebuah bilangan bulat positif, dengan jumlah dua bilangan sama dengan bilangan ketiga
    • Orang pertama mengatakan dia tidak tahu bilangannya sendiri, orang kedua juga tidak tahu, dan orang ketiga juga tidak tahu
    • Ketika orang pertama ditanya lagi, dia menjawab 65
    • Pertanyaannya adalah berapa hasil kali dari ketiga bilangan tersebut
  • Model ini bekerja sangat baik dalam transkripsi audio dan tugas menggambar kotak pembatas di sekitar makhluk hidup dalam foto yang kompleks

    • Bahkan bisa menggambar pelikan yang sedang bersepeda
    • Catatan terkait bisa dilihat di tautan
  • Model ini mencatat performa terbaik dengan cara yang belum pernah terjadi sebelumnya di benchmark

    • Menunjukkan kualitas tinggi dan hasil yang jelas, tetapi agak lambat
    • Google kembali mencetak pencapaian besar
  • Gemini 2.5 Pro mencatat SOTA dengan skor 73% di aider polyglot leaderboard

    • Menunjukkan lompatan besar dibanding model Gemini sebelumnya
    • Ini adalah model Gemini pertama yang secara efektif menggunakan format penyuntingan mirip diff yang efisien
  • Pengumuman seperti ini mulai terasa seperti template

    • Model mutakhir
    • Perbandingan benchmark dengan X, Y, Z
    • Penalaran yang "lebih baik"
    • Mungkin ini model yang hebat, tetapi teks yang berulang membuat minat menurun
  • Gemini 2.5 mencapai tingkat performa baru dengan menggabungkan model dasar yang sangat ditingkatkan dan post-processing yang lebih baik

    • Ke depannya, kemampuan berpikir seperti ini akan dibangun langsung ke semua model agar dapat menangani masalah yang lebih kompleks dan mendukung agen yang lebih kapabel serta sadar konteks
    • Terhubung ke internet dan bertindak sebagai model penalaran saat diperlukan
    • Saya berharap mode canvas yang baru dirilis bisa didukung untuk model ini
  • Saya menggunakan test case yang memberi LLM seluruh codebase dan deskripsi bug untuk mengidentifikasi penyebab bug di library Dart

    • Mencakup sekitar 360.000 token
    • Saya sudah mencobanya pada model-model utama sebulan lalu, tetapi hanya model ini yang mengidentifikasi perbaikan yang benar
  • Jika berencana menggunakan Gemini, ada beberapa hal yang perlu diperhatikan

    • Jangan masukkan informasi rahasia atau data yang bisa dilihat reviewer atau digunakan oleh Google
    • Demi peningkatan kualitas Google AI dan perbaikan produk, reviewer manusia membaca, memberi anotasi, dan memproses percakapan
    • Dalam proses ini, percakapan dipisahkan dari akun Google untuk menjaga privasi
  • Model 2.0 masih belum terlalu lama, jadi saya penasaran kenapa namanya diberi +0.5

    • Saya penasaran apakah ini karena pemasaran, menandakan arsitektur model baru, lebih banyak data pelatihan berbasis 2.0, atau infrastruktur layanan baru
    • Saya merasa penamaan *.5 agak konyol saat pertama kali muncul
    • Ketika OpenAI merilis 3.5, mereka mengatakan 4 sudah disiapkan, dan 3 sedang disesuaikan agar lebih cocok untuk ChatGPT
    • Saya rasa contoh terburuk dari penamaan ini adalah Anthropic yang menamai modelnya Sonnet 3, 3.5, 3.5 (new), 3.7
    • Saya lebih suka semver, berbasis tanggal ("Gemini Pro 2025"), atau kombinasi huruf dan angka yang bermakna (misalnya 4o - "Omni")