Peluncuran Gemini 2.5 Flash

(developers.googleblog.com)

5 poin oleh GN⁺ 2025-04-18 | 1 komentar | Bagikan ke WhatsApp

Gemini 2.5 Flash adalah model penalaran hibrida yang tersedia melalui Google AI Studio dan Vertex AI, dengan peningkatan besar pada kemampuan penalaran sambil tetap mempertahankan kecepatan dan biaya
Melalui fitur berpikir (on/off) dan pengaturan thinking_budget, pengguna dapat menyesuaikan performa, biaya, dan latensi secara rinci
Dengan menetapkan anggaran berpikir, pengguna dapat mengatur secara detail jumlah token maksimum yang dapat dihasilkan model, serta memperoleh jawaban yang lebih akurat dan komprehensif untuk tugas yang kompleks
Ini adalah model penalaran paling efisien dari sisi biaya milik Google, yang menawarkan performa tinggi dengan biaya rendah dan dapat disesuaikan secara fleksibel untuk berbagai kasus penggunaan
Saat ini tersedia dalam pratinjau di Google AI Studio dan Vertex AI, dan juga dapat dikonfigurasi melalui API

Peluncuran pratinjau Gemini 2.5 Flash

Google merilis Gemini 2.5 Flash dalam bentuk pratinjau (preview) melalui Google AI Studio dan Vertex AI
Kemampuan penalarannya meningkat drastis dibanding 2.0 Flash, sambil tetap mempertahankan kecepatan dan efisiensi biaya
Sebagai model penalaran hibrida penuh pertama, pengembang dapat mengaktifkan atau menonaktifkan mode berpikir (thinking)
Melalui pengaturan thinking_budget, pengguna dapat menyeimbangkan kualitas, biaya, dan latensi respons
Bahkan saat mode berpikir dimatikan, performanya tetap lebih baik daripada 2.0 Flash

Fitur penalaran Gemini 2.5 Flash

Gemini 2.5 Flash tidak langsung menghasilkan jawaban, melainkan menggunakan struktur yang memproses pemikiran terlebih dahulu
Untuk masalah kompleks, soal matematika, dan pertanyaan analisis riset, model ini menghasilkan jawaban yang lebih akurat dan komprehensif
Pada benchmark Hard Prompts milik LMArena, model ini menunjukkan performa tertinggi setelah 2.5 Pro
Dibanding model lain, model ini menawarkan performa serupa dengan harga lebih murah dan ukuran model yang lebih kecil

Model penalaran paling efisien dari sisi biaya

Gemini 2.5 Flash dinilai sebagai model penalaran dengan performa per harga terbaik
Model ini juga baru masuk ke dalam kurva efisiensi biaya terhadap kualitas (Pareto frontier) milik Google

Fitur pengaturan berpikir: thinking_budget

Menyediakan fitur penyesuaian yang rinci antara kualitas, biaya, dan latensi sesuai berbagai kasus penggunaan
thinking_budget berarti jumlah token maksimum yang dapat digunakan model untuk berpikir
- Contoh: jika budget ditingkatkan, kualitas akan naik, tetapi biaya dan latensi juga meningkat
Untuk pertanyaan sederhana yang tidak memerlukan pemikiran, model secara otomatis menerapkan budget rendah
Rentang budget adalah 0 ~ 24.576 token, dan dapat diatur melalui slider atau parameter API di AI Studio maupun Vertex AI

Contoh prompt berdasarkan tingkat pemikiran

Memerlukan penalaran tingkat rendah

“Thank you” in Spanish
Menanyakan jumlah provinsi di Kanada

Memerlukan penalaran tingkat menengah

Menghitung probabilitas munculnya angka 7 saat melempar dua dadu
Membuat jadwal yang memungkinkan bermain basket 5 jam pada hari kerja berdasarkan agenda

Memerlukan penalaran tingkat tinggi

Soal perhitungan tegangan mekanika pada balok
Masalah menulis fungsi evaluasi rumus bergaya Excel
- Memerlukan penyelesaian dependensi, prioritas operator, dan deteksi siklus

Memulai

Versi preview tersedia di Google AI Studio, Vertex AI, dan aplikasi Gemini
Jelajahi kemungkinan penyelesaian masalah kompleks melalui eksperimen dengan parameter thinking_budget

Contoh kode:

from google import genai  

client = genai.Client(api_key="GEMINI_API_KEY")  

response = client.models.generate_content(  
  model="gemini-2.5-flash-preview-04-17",  
  contents="You roll two dice. What’s the probability they add up to 7?",  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

Detail selengkapnya tersedia di dokumentasi pengembang dan Gemini Cookbook
Ke depannya akan ditambahkan lebih banyak fitur, dan peningkatan akan terus dilakukan hingga peluncuran resmi

1 komentar

GN⁺ 2025-04-18

Komentar Hacker News

Fakta bahwa Google menyediakan Gemini 2.5 Pro (eksperimental) secara gratis adalah hal besar. Saya belum pernah memakai model OpenAI yang lebih mahal jadi tidak bisa membandingkan, tetapi dibandingkan model gratis yang pernah saya gunakan sebelumnya, Gemini 2.5 Pro menunjukkan kemajuan besar. Model ini lebih pintar daripada saya pada sebagian besar topik yang saya tangani, dan tidak berusaha sekadar setuju dengan saya, melainkan berdebat dengan saya. Sekarang semua penggunaan AI kasual saya terpusat di Gemini, dan saya jadi menantikan untuk bertanya tentang topik yang lebih mendalam. Saya juga sedang membuat alat baru untuk meningkatkan nilai model ini
Salah satu kemampuan model Gemini yang sering terlewat adalah bahwa melalui API, ia bisa langsung menulis dan menjalankan kode Python. Plugin llm-gemini saya mendukung ini: tautan GitHub. Tidak ada biaya tambahan untuk menjalankan kode; Anda hanya membayar token input dan output. Sebagai contoh, penggunaan 10 input dan 1.531 output menelan biaya 0,536 sen
Model Gemini Flash mungkin paling kurang mendapat sorotan, tetapi dalam penggunaan nyata ia punya rasio harga-kinerja terbaik dan menyediakan alat multimodal. Google diam-diam sedang memenangkan persaingan AI
Informasi tersembunyi saat menyelami dokumentasi Gemini 2.5 Flash: untuk input gambar, model ini tidak hanya dapat membuat kotak pembatas 2D untuk subjek yang relevan, tetapi juga dapat menghasilkan segmentation mask. Menghasilkan segmentation mask dengan model Flash di kisaran harga ini cukup keren. Implementasinya dilakukan dengan menghasilkan string b64 yang merepresentasikan mask
Bagi saya yang bukan programmer, Google menjadi sangat luar biasa. Ia memberikan kode yang langsung berjalan sejak awal. Ketika saya memintanya menulis kode untuk mengambil data dari situs web lalu menganalisisnya, ia benar-benar menulis kode untuk mengambil dan menganalisis data tersebut. Memang hanya klasifikasi dan agregasi data dasar, tetapi saya tidak mengharapkannya
Lebih banyak inovasi dari Google. OpenAI punya dua masalah utama. Pertama, pipeline chip terintegrasi vertikal milik Google serta pengetahuan rantai pasok dan operasional yang mendalam yang dibutuhkan untuk memproduksi chip AI. Ini memberi keunggulan biaya yang sangat besar di setiap tahap. Kedua, kekurangan data dan keunggulan tidak adil dari media sosial sebagai sumber pengetahuan yang terus diperbarui. Data baru semakin menjadi faktor pembeda yang berharga. SamA menyadari masalah ini, dan menganggapnya sebagai isu mendasar yang akan menentukan apakah OpenAI berhasil atau tidak
Kenaikan harga 50% dari Gemini 2.0 Flash. Kedengarannya besar, tetapi Flash masih sangat murah dibandingkan model lain dengan kualitas seperti ini
Menemukan hal menarik di kode pustaka API Python: tautan GitHub. thinking_budget didokumentasikan, tetapi sulit memahami apa itu include_thoughts. Saya belum menemukan cara memakai opsi ini agar Gemini mengembalikan ringkasan pemikiran
Walaupun Google menyediakan model yang mengesankan lewat API dan AI Studio gratis, model yang dipakai di aplikasi Gemini tampak jauh lebih buruk. Dalam beberapa minggu terakhir saya memakai Gemini Advanced dengan akun Workspace, dan modelnya tampak berpikir lebih singkat, memberi output yang lebih pendek, dan context window-nya juga terasa jauh dari 1 juta token yang diiklankan. Sepertinya Google sengaja membatasi aplikasi Gemini
Saat menjalankan PDF internal (3 halaman, tingkat kesulitan menengah) pada benchmark json:
- gemini-flash-2.0: akurasi sekitar 60%, $1 per 6.250 halaman
- gemini-2.5-flash-preview (tanpa thinking): akurasi sekitar 80%, $1 per 1.700 halaman
- gemini-2.5-flash-preview (dengan thinking): akurasi sekitar 80%, $1 per 350 halaman
- gemini-flash-2.5: akurasi sekitar 90%, $1 per 150 halaman
- Saya berharap varian thinking dipisahkan dari varian biasa. Sangat membingungkan ketika parameter model berdampak besar pada harga

Peluncuran Gemini 2.5 Flash

Peluncuran pratinjau Gemini 2.5 Flash

Fitur penalaran Gemini 2.5 Flash

Model penalaran paling efisien dari sisi biaya

Fitur pengaturan berpikir: thinking_budget

Contoh prompt berdasarkan tingkat pemikiran

Memerlukan penalaran tingkat rendah

Memerlukan penalaran tingkat menengah

Memerlukan penalaran tingkat tinggi

Memulai

Bacaan terkait

1 komentar

Komentar Hacker News