- Bersamaan dengan rilis resmi model Gemini 2.5 Flash dan Pro, Google juga memperkenalkan versi pratinjau model Flash-Lite yang paling murah dan paling cepat
- Flash-Lite dioptimalkan untuk tugas yang sensitif terhadap latensi seperti penerjemahan dan klasifikasi, serta menawarkan latensi lebih rendah dan kualitas keseluruhan lebih tinggi dibanding 2.0 Flash/Flash-Lite
- Semua model 2.5 mendukung fitur seperti input multimodal, panjang konteks 1M token, konektivitas alat (pencarian, eksekusi kode, dll.), serta kemampuan mengaktifkan/nonaktifkan mode Thinking
- Dirancang dengan mempertimbangkan optimasi performa terhadap biaya (Pareto Frontier), sehingga jajaran produknya cocok untuk menangani trafik berskala besar
- Flash-Lite dan Flash juga telah dikustomisasi untuk penggunaan pencarian, dan pengembang dapat memakai model pratinjau maupun model resmi melalui Google AI Studio dan Vertex AI
Karakteristik Flash-Lite
- Sebagai model paling murah dan paling cepat, tarifnya adalah $0.10 per 1 juta token input dan $0.40 per 1 juta token output
- Memiliki performa yang sangat baik dibanding biayanya, sehingga sangat cocok untuk tugas dengan volume permintaan besar seperti penerjemahan dan klasifikasi
- Dibanding 2.0 Flash-Lite sebelumnya, kualitas keseluruhan meningkat, dengan skor sains (GPQA) naik dari 64.6% → 66.7%, dan matematika (AIME 2025) naik dari 49.8% → 63.1%
- Untuk pembuatan dan penyuntingan kode, skornya masing-masing 34.3% dan 27.1%; lebih rendah dari model berperforma tinggi, tetapi tetap merupakan pilihan yang efisien dari sisi biaya
- Performa pemrosesan multimodal tetap di 72.9%, sementara pemahaman gambar meningkat dari 51.3% menjadi 57.5%
- Saat mode penalaran (Thinking) diaktifkan, akurasi keseluruhan meningkat; misalnya pada HumanEval naik dari 5.1% → 6.9%, dan pada SWE-bench multi-task dari 42.6% → 44.9%
- Pada metrik seperti faktualitas (SimpleQA) dan pemahaman konteks panjang (MRCR), performa dalam mode Thinking juga meningkat signifikan; khususnya akurasi konteks panjang pada 1M token naik lebih dari 3 kali lipat, dari 5.4% menjadi 16.8%
- Kemampuan multibahasa (MMLU) juga meningkat, mencapai 81.1% dalam mode non-thinking dan 84.5% dalam mode Thinking
1 komentar
Opini Hacker News
Ini tidak disebutkan dalam postingan Google, tetapi tampaknya ada kenaikan harga untuk model Gemini 2.5 Flash
Berdasarkan arsip harga 2.5 Flash Preview, biayanya adalah $0.15 per 1 juta token input teks/gambar/video, audio $1.00, dan output dibagi menjadi non-thinking $0.60 serta thinking $3.50
Pada harga baru, pembedaan antara thinking dan non-thinking dihapus
Input teks/gambar/video naik 2x menjadi $0.30 per 1 juta, audio tetap $1.00, dan output menjadi $2.50 per 1 juta, yang jauh lebih mahal dari non-thinking sebelumnya tetapi lebih murah dari thinking
Rincian harga selengkapnya bisa dilihat di sini
Ada lebih banyak informasi tentang perubahan harga di postingan blog
Tautan referensi lebih lanjut
Ada komentar bahwa meskipun dulu banyak yang mengatakan teknologi AI akan segera menjadi sangat murah, untuk saat ini justru harga sedang naik
Saat Gemini pertama kali dirilis, harganya terasa terlalu murah dibanding para pesaing, dan sekarang tampaknya baru mulai mencerminkan harga yang lebih realistis
Harga naik 2x seolah tidak terjadi apa-apa
Jika mengingat Gemini 2.0 Flash dulu berada di $0.10/$0.40, kenaikannya terasa cukup besar
Ada pendapat bahwa ini perubahan yang tertangkap dengan tajam
Saya rasa perubahan harga ini cukup penting bagi Gemini, yang sebenarnya bisa menjadi GOAT (yang terbaik) di area audio-to-audio
Saya rasa dulu banyak orang memakai Gemini Pro saat masih gratis di AI Studio
Setelah itu performanya justru memburuk, dan sekarang untuk pekerjaan penting saya kembali ke Claude
Gemini terasa seperti teman yang suka bicara terlalu banyak tanpa perlu
Meski begitu, saya masih sering memakainya untuk brainstorming, lalu prompt yang dihasilkan Gemini saya rapikan dan dipakai di Claude
Kalau melihat Aider leaderboard, pengalaman saya tidak sepenuhnya sejalan karena Gemini tidak selalu unggul
Saya hanya memakai Aider API secara langsung, jadi tidak punya pengalaman dengan AI Studio
Claude tetap bekerja cukup baik walau prompt-nya kurang bagus, terutama saat arah yang diinginkan masih samar
Kalau saya sudah punya arah yang jelas, Gemini 2.5 Pro (dengan Thinking aktif) lebih bagus, dan kodenya berjalan lebih stabil
Di o4-mini dan o3 memang terasa lebih "cerdas" dalam berpikir, tetapi kodenya kurang stabil (Gemini lebih stabil)
Semakin tinggi kompleksitasnya, Claude tampak makin melemah, dan menurut saya Gemini serta o3 layak dinilai lebih tinggi
Sejak rilis o3-mini, saya belum pernah merasa perlu kembali ke Claude
Saya juga mengalami hal serupa
Pada awalnya model ini tampak mampu menyelesaikan masalah rumit, tetapi untuk tugas sederhana justru sulit diarahkan
Jawabannya terlalu panjang, dan karena UX adalah hal terpenting, saat ini saya lebih menyukai UX Claude Code
Saya juga sama; bahkan setelah membuat Gem dengan prompt yang disusun sangat rinci agar menjawab singkat, model ini tetap bertele-tele dan tidak nyaman karena sering memperluas cakupan pertanyaan tanpa perlu
Saya tidak punya informasi internal, tetapi rasanya model ini seperti sudah diquantize
Muncul pola seperti mengulang satu huruf tanpa henti, sesuatu yang biasanya hanya saya lihat pada model yang diquantize
Saya berharap bisa rollback ke versi preview lama
Versi preview terasa seimbang dan bahkan memberi sanggahan yang benar-benar berguna, sedangkan versi resmi (GA) berubah menjadi terlalu bernada positif
Saya sangat terkesan dengan Gemini sampai berhenti memakai OpenAI
Kadang saya menguji ketiga model lewat OpenRouter, tetapi sekarang lebih dari 90% penggunaan saya adalah Gemini
Dibandingkan tahun lalu saat 90% penggunaan saya adalah ChatGPT, ini perubahan yang cukup besar
Saya biasanya cukup kritis terhadap Google, tetapi kali ini model-model mereka benar-benar terasa luar biasa
Terutama context window yang sangat besar, itu nilai tambah yang sangat signifikan
Saya juga begitu; kali ini saya bahkan membatalkan langganan Claude karena merasa Gemini mengejar dengan sangat cepat
Dengan pengumuman ini, saya rasa Flash Lite naik kelas dari "tidak berguna" menjadi "alat yang berguna"
Flash Lite murah, dan yang paling penting, keunggulannya adalah kecepatan karena hampir selalu merespons dalam kurang dari 1 detik (minimum 200 ms, rata-rata 400 ms)
Di layanan kami Brokk(brokk.ai) kami saat ini memakai Flash 2.0 (bukan Lite) untuk Quick Edits, dan sekarang sedang mempertimbangkan adopsi 2.5 Lite
Saya penasaran apa gunanya model yang berada di bawah Flash 2.5 yang lebih lambat karena Thinking
Respons cepat itu penting, jadi ketika thinking diaktifkan dan kecepatannya turun, posisinya jadi serba tanggung
Saya penasaran bagaimana orang memakai Gemini di luar bidang coding, dan kenapa memilihnya
Saat membuat aplikasi, apakah backend GenAI dirancang agar bisa mengganti penyedia dengan mudah, apakah ada yang melakukan load balancing di antara beberapa penyedia karena harga atau reliabilitas, dan bagaimana LLM akan berubah jika suatu hari muncul spot market untuk layanan semacam ini
Dalam pengalaman saya, Gemini 2.5 Pro menonjol untuk pekerjaan non-coding seperti terjemahan dan ringkasan (dipakai lewat Canva)
Itu dimungkinkan oleh ukuran jendela konteks dan batas pemakaian yang sangat besar
Khususnya untuk pembuatan laporan riset, saya rasa Gemini lebih unggul daripada ChatGPT
Mungkin karena Google memang kuat di pencarian, laporannya berbasis banyak sumber dan lebih akurat
Saya juga lebih menyukai gaya tulisannya, dan kemampuan ekspor ke Google Docs juga praktis
Namun UI-nya masih sangat tertinggal dibanding pesaing, dan ketiadaan atau lemahnya fitur inti seperti Custom instruction, Projects, dan Temporary Chat adalah kekurangan besar
Sangat berguna karena saya bisa memasukkan banyak dokumen NDA sekaligus, lalu dalam hitungan detik model ini mengekstrak hanya bagian yang relevan
Berkat jendela konteks yang besar dan kemampuan tinggi untuk mengambil informasi yang tepat, model ini sangat cocok untuk pekerjaan semacam itu
Gemini Flash 2.0 sangat murah dan merupakan model yang kuat untuk workload kelas enterprise
Memang bukan kecerdasan paling mutakhir, tetapi dari sisi harga murah, kecepatan tinggi, dan reliabilitas output terstruktur yang bagus, saya sangat puas memakainya untuk pengembangan
Saya berencana menguji upgrade ke 2.5 Lite
Saya banyak memakai lexikon.ai, dan khususnya untuk pemrosesan gambar dalam jumlah besar saya sering memakai Gemini
Saya suka karena harga Google Vision API jauh lebih murah dibanding penyedia besar lain seperti OpenAI dan Anthropic
Saya memakai Gemini 2.5 Flash (opsi non-thinking) sebagai partner berpikir
Model ini membantu merapikan pikiran saya dan juga otomatis memberi masukan yang belum sempat saya pikirkan
Saya juga memakainya untuk refleksi diri, dengan melemparkan pikiran atau kekhawatiran saya lalu melihat respons AI sebagai bahan pertimbangan
Apakah ada orang lain yang saat ini tidak bisa mengakses API 2.5-pro?
Muncul error: "projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro tidak ditemukan atau Anda tidak memiliki izin akses"
Ada pesan panduan untuk memastikan bahwa versi model yang digunakan memang valid
Saya mengoperasikan layanan inferensi LLM/pemrosesan data skala besar dan sering melakukan profiling biaya serta performa berbagai model open-weight
Hal yang masih terasa aneh dalam penetapan harga LLM adalah penyedia tetap menagih secara linear berdasarkan konsumsi token, padahal biaya sistem nyata meningkat secara kuadratik seiring bertambahnya panjang sekuens
Karena arsitektur model, algoritma inferensi, dan perangkat keras sekarang kebanyakan sudah mirip, tampaknya penyedia sangat mengandalkan statistik historis pola permintaan pelanggan saat menentukan harga
Pada akhirnya, setelah memperoleh data pola penggunaan nyata, munculnya kenaikan harga seperti ini menurut saya bukan hal yang aneh
Dibanding 2.0 Flash Lite, harga pemrosesan audio 2.5 Flash Lite naik 6,33x
Input audio 2.5 Flash Lite adalah $0.5 per 1 juta token, sedangkan di 2.0 hanya $0.075
Saya penasaran kenapa harga token audio bisa naik sedrastis ini
Dengan asumsi rasio token input:output adalah 3:1, blended price naik 3,24x dibanding sebelumnya, dan dibanding 2.0 Flash hampir mendekati 5x
Karena itu, 2.0 Flash tampaknya masih akan kompetitif untuk banyak use case, terutama di luar coding
Walaupun performanya sedikit lebih rendah, membagi prompt menjadi beberapa kali pemanggilan mungkin justru memberi hasil nyata yang lebih baik
Saya sempat berharap 2.5 Flash akan menjadi pilihan yang benar-benar dominan, jadi ini agak mengecewakan
(Referensi data harga terkait bisa dilihat di sini)