5 poin oleh GN⁺ 2025-04-18 | 1 komentar | Bagikan ke WhatsApp
  • Gemini 2.5 Flash adalah model penalaran hibrida yang tersedia melalui Google AI Studio dan Vertex AI, dengan peningkatan besar pada kemampuan penalaran sambil tetap mempertahankan kecepatan dan biaya
  • Melalui fitur berpikir (on/off) dan pengaturan thinking_budget, pengguna dapat menyesuaikan performa, biaya, dan latensi secara rinci
  • Dengan menetapkan anggaran berpikir, pengguna dapat mengatur secara detail jumlah token maksimum yang dapat dihasilkan model, serta memperoleh jawaban yang lebih akurat dan komprehensif untuk tugas yang kompleks
  • Ini adalah model penalaran paling efisien dari sisi biaya milik Google, yang menawarkan performa tinggi dengan biaya rendah dan dapat disesuaikan secara fleksibel untuk berbagai kasus penggunaan
  • Saat ini tersedia dalam pratinjau di Google AI Studio dan Vertex AI, dan juga dapat dikonfigurasi melalui API

Peluncuran pratinjau Gemini 2.5 Flash

  • Google merilis Gemini 2.5 Flash dalam bentuk pratinjau (preview) melalui Google AI Studio dan Vertex AI
  • Kemampuan penalarannya meningkat drastis dibanding 2.0 Flash, sambil tetap mempertahankan kecepatan dan efisiensi biaya
  • Sebagai model penalaran hibrida penuh pertama, pengembang dapat mengaktifkan atau menonaktifkan mode berpikir (thinking)
  • Melalui pengaturan thinking_budget, pengguna dapat menyeimbangkan kualitas, biaya, dan latensi respons
  • Bahkan saat mode berpikir dimatikan, performanya tetap lebih baik daripada 2.0 Flash

Fitur penalaran Gemini 2.5 Flash

  • Gemini 2.5 Flash tidak langsung menghasilkan jawaban, melainkan menggunakan struktur yang memproses pemikiran terlebih dahulu
  • Untuk masalah kompleks, soal matematika, dan pertanyaan analisis riset, model ini menghasilkan jawaban yang lebih akurat dan komprehensif
  • Pada benchmark Hard Prompts milik LMArena, model ini menunjukkan performa tertinggi setelah 2.5 Pro
  • Dibanding model lain, model ini menawarkan performa serupa dengan harga lebih murah dan ukuran model yang lebih kecil

Model penalaran paling efisien dari sisi biaya

  • Gemini 2.5 Flash dinilai sebagai model penalaran dengan performa per harga terbaik
  • Model ini juga baru masuk ke dalam kurva efisiensi biaya terhadap kualitas (Pareto frontier) milik Google

Fitur pengaturan berpikir: thinking_budget

  • Menyediakan fitur penyesuaian yang rinci antara kualitas, biaya, dan latensi sesuai berbagai kasus penggunaan
  • thinking_budget berarti jumlah token maksimum yang dapat digunakan model untuk berpikir
    • Contoh: jika budget ditingkatkan, kualitas akan naik, tetapi biaya dan latensi juga meningkat
  • Untuk pertanyaan sederhana yang tidak memerlukan pemikiran, model secara otomatis menerapkan budget rendah
  • Rentang budget adalah 0 ~ 24.576 token, dan dapat diatur melalui slider atau parameter API di AI Studio maupun Vertex AI

Contoh prompt berdasarkan tingkat pemikiran

Memerlukan penalaran tingkat rendah

  • “Thank you” in Spanish
  • Menanyakan jumlah provinsi di Kanada

Memerlukan penalaran tingkat menengah

  • Menghitung probabilitas munculnya angka 7 saat melempar dua dadu
  • Membuat jadwal yang memungkinkan bermain basket 5 jam pada hari kerja berdasarkan agenda

Memerlukan penalaran tingkat tinggi

  • Soal perhitungan tegangan mekanika pada balok
  • Masalah menulis fungsi evaluasi rumus bergaya Excel
    • Memerlukan penyelesaian dependensi, prioritas operator, dan deteksi siklus

Memulai

  • Versi preview tersedia di Google AI Studio, Vertex AI, dan aplikasi Gemini
  • Jelajahi kemungkinan penyelesaian masalah kompleks melalui eksperimen dengan parameter thinking_budget
  • Contoh kode:
    from google import genai  
    
    client = genai.Client(api_key="GEMINI_API_KEY")  
    
    response = client.models.generate_content(  
      model="gemini-2.5-flash-preview-04-17",  
      contents="You roll two dice. What’s the probability they add up to 7?",  
      config=genai.types.GenerateContentConfig(  
        thinking_config=genai.types.ThinkingConfig(  
          thinking_budget=1024  
        )  
      )  
    )  
    
    print(response.text)  
    
  • Detail selengkapnya tersedia di dokumentasi pengembang dan Gemini Cookbook
  • Ke depannya akan ditambahkan lebih banyak fitur, dan peningkatan akan terus dilakukan hingga peluncuran resmi

1 komentar

 
GN⁺ 2025-04-18
Komentar Hacker News
  • Fakta bahwa Google menyediakan Gemini 2.5 Pro (eksperimental) secara gratis adalah hal besar. Saya belum pernah memakai model OpenAI yang lebih mahal jadi tidak bisa membandingkan, tetapi dibandingkan model gratis yang pernah saya gunakan sebelumnya, Gemini 2.5 Pro menunjukkan kemajuan besar. Model ini lebih pintar daripada saya pada sebagian besar topik yang saya tangani, dan tidak berusaha sekadar setuju dengan saya, melainkan berdebat dengan saya. Sekarang semua penggunaan AI kasual saya terpusat di Gemini, dan saya jadi menantikan untuk bertanya tentang topik yang lebih mendalam. Saya juga sedang membuat alat baru untuk meningkatkan nilai model ini

  • Salah satu kemampuan model Gemini yang sering terlewat adalah bahwa melalui API, ia bisa langsung menulis dan menjalankan kode Python. Plugin llm-gemini saya mendukung ini: tautan GitHub. Tidak ada biaya tambahan untuk menjalankan kode; Anda hanya membayar token input dan output. Sebagai contoh, penggunaan 10 input dan 1.531 output menelan biaya 0,536 sen

  • Model Gemini Flash mungkin paling kurang mendapat sorotan, tetapi dalam penggunaan nyata ia punya rasio harga-kinerja terbaik dan menyediakan alat multimodal. Google diam-diam sedang memenangkan persaingan AI

  • Informasi tersembunyi saat menyelami dokumentasi Gemini 2.5 Flash: untuk input gambar, model ini tidak hanya dapat membuat kotak pembatas 2D untuk subjek yang relevan, tetapi juga dapat menghasilkan segmentation mask. Menghasilkan segmentation mask dengan model Flash di kisaran harga ini cukup keren. Implementasinya dilakukan dengan menghasilkan string b64 yang merepresentasikan mask

  • Bagi saya yang bukan programmer, Google menjadi sangat luar biasa. Ia memberikan kode yang langsung berjalan sejak awal. Ketika saya memintanya menulis kode untuk mengambil data dari situs web lalu menganalisisnya, ia benar-benar menulis kode untuk mengambil dan menganalisis data tersebut. Memang hanya klasifikasi dan agregasi data dasar, tetapi saya tidak mengharapkannya

  • Lebih banyak inovasi dari Google. OpenAI punya dua masalah utama. Pertama, pipeline chip terintegrasi vertikal milik Google serta pengetahuan rantai pasok dan operasional yang mendalam yang dibutuhkan untuk memproduksi chip AI. Ini memberi keunggulan biaya yang sangat besar di setiap tahap. Kedua, kekurangan data dan keunggulan tidak adil dari media sosial sebagai sumber pengetahuan yang terus diperbarui. Data baru semakin menjadi faktor pembeda yang berharga. SamA menyadari masalah ini, dan menganggapnya sebagai isu mendasar yang akan menentukan apakah OpenAI berhasil atau tidak

  • Kenaikan harga 50% dari Gemini 2.0 Flash. Kedengarannya besar, tetapi Flash masih sangat murah dibandingkan model lain dengan kualitas seperti ini

  • Menemukan hal menarik di kode pustaka API Python: tautan GitHub. thinking_budget didokumentasikan, tetapi sulit memahami apa itu include_thoughts. Saya belum menemukan cara memakai opsi ini agar Gemini mengembalikan ringkasan pemikiran

  • Walaupun Google menyediakan model yang mengesankan lewat API dan AI Studio gratis, model yang dipakai di aplikasi Gemini tampak jauh lebih buruk. Dalam beberapa minggu terakhir saya memakai Gemini Advanced dengan akun Workspace, dan modelnya tampak berpikir lebih singkat, memberi output yang lebih pendek, dan context window-nya juga terasa jauh dari 1 juta token yang diiklankan. Sepertinya Google sengaja membatasi aplikasi Gemini

  • Saat menjalankan PDF internal (3 halaman, tingkat kesulitan menengah) pada benchmark json:

    • gemini-flash-2.0: akurasi sekitar 60%, $1 per 6.250 halaman
    • gemini-2.5-flash-preview (tanpa thinking): akurasi sekitar 80%, $1 per 1.700 halaman
    • gemini-2.5-flash-preview (dengan thinking): akurasi sekitar 80%, $1 per 350 halaman
    • gemini-flash-2.5: akurasi sekitar 90%, $1 per 150 halaman
    • Saya berharap varian thinking dipisahkan dari varian biasa. Sangat membingungkan ketika parameter model berdampak besar pada harga