1 poin oleh GN⁺ 2025-06-18 | 1 komentar | Bagikan ke WhatsApp
  • Bersamaan dengan rilis resmi model Gemini 2.5 Flash dan Pro, Google juga memperkenalkan versi pratinjau model Flash-Lite yang paling murah dan paling cepat
  • Flash-Lite dioptimalkan untuk tugas yang sensitif terhadap latensi seperti penerjemahan dan klasifikasi, serta menawarkan latensi lebih rendah dan kualitas keseluruhan lebih tinggi dibanding 2.0 Flash/Flash-Lite
  • Semua model 2.5 mendukung fitur seperti input multimodal, panjang konteks 1M token, konektivitas alat (pencarian, eksekusi kode, dll.), serta kemampuan mengaktifkan/nonaktifkan mode Thinking
  • Dirancang dengan mempertimbangkan optimasi performa terhadap biaya (Pareto Frontier), sehingga jajaran produknya cocok untuk menangani trafik berskala besar
  • Flash-Lite dan Flash juga telah dikustomisasi untuk penggunaan pencarian, dan pengembang dapat memakai model pratinjau maupun model resmi melalui Google AI Studio dan Vertex AI

Karakteristik Flash-Lite

  • Sebagai model paling murah dan paling cepat, tarifnya adalah $0.10 per 1 juta token input dan $0.40 per 1 juta token output
  • Memiliki performa yang sangat baik dibanding biayanya, sehingga sangat cocok untuk tugas dengan volume permintaan besar seperti penerjemahan dan klasifikasi
  • Dibanding 2.0 Flash-Lite sebelumnya, kualitas keseluruhan meningkat, dengan skor sains (GPQA) naik dari 64.6% → 66.7%, dan matematika (AIME 2025) naik dari 49.8% → 63.1%
  • Untuk pembuatan dan penyuntingan kode, skornya masing-masing 34.3% dan 27.1%; lebih rendah dari model berperforma tinggi, tetapi tetap merupakan pilihan yang efisien dari sisi biaya
  • Performa pemrosesan multimodal tetap di 72.9%, sementara pemahaman gambar meningkat dari 51.3% menjadi 57.5%
  • Saat mode penalaran (Thinking) diaktifkan, akurasi keseluruhan meningkat; misalnya pada HumanEval naik dari 5.1% → 6.9%, dan pada SWE-bench multi-task dari 42.6% → 44.9%
  • Pada metrik seperti faktualitas (SimpleQA) dan pemahaman konteks panjang (MRCR), performa dalam mode Thinking juga meningkat signifikan; khususnya akurasi konteks panjang pada 1M token naik lebih dari 3 kali lipat, dari 5.4% menjadi 16.8%
  • Kemampuan multibahasa (MMLU) juga meningkat, mencapai 81.1% dalam mode non-thinking dan 84.5% dalam mode Thinking

1 komentar

 
GN⁺ 2025-06-18
Opini Hacker News
  • Ini tidak disebutkan dalam postingan Google, tetapi tampaknya ada kenaikan harga untuk model Gemini 2.5 Flash
    Berdasarkan arsip harga 2.5 Flash Preview, biayanya adalah $0.15 per 1 juta token input teks/gambar/video, audio $1.00, dan output dibagi menjadi non-thinking $0.60 serta thinking $3.50
    Pada harga baru, pembedaan antara thinking dan non-thinking dihapus
    Input teks/gambar/video naik 2x menjadi $0.30 per 1 juta, audio tetap $1.00, dan output menjadi $2.50 per 1 juta, yang jauh lebih mahal dari non-thinking sebelumnya tetapi lebih murah dari thinking
    Rincian harga selengkapnya bisa dilihat di sini

    • Ada lebih banyak informasi tentang perubahan harga di postingan blog
      Tautan referensi lebih lanjut

    • Ada komentar bahwa meskipun dulu banyak yang mengatakan teknologi AI akan segera menjadi sangat murah, untuk saat ini justru harga sedang naik

    • Saat Gemini pertama kali dirilis, harganya terasa terlalu murah dibanding para pesaing, dan sekarang tampaknya baru mulai mencerminkan harga yang lebih realistis

    • Harga naik 2x seolah tidak terjadi apa-apa
      Jika mengingat Gemini 2.0 Flash dulu berada di $0.10/$0.40, kenaikannya terasa cukup besar

    • Ada pendapat bahwa ini perubahan yang tertangkap dengan tajam
      Saya rasa perubahan harga ini cukup penting bagi Gemini, yang sebenarnya bisa menjadi GOAT (yang terbaik) di area audio-to-audio

  • Saya rasa dulu banyak orang memakai Gemini Pro saat masih gratis di AI Studio
    Setelah itu performanya justru memburuk, dan sekarang untuk pekerjaan penting saya kembali ke Claude
    Gemini terasa seperti teman yang suka bicara terlalu banyak tanpa perlu
    Meski begitu, saya masih sering memakainya untuk brainstorming, lalu prompt yang dihasilkan Gemini saya rapikan dan dipakai di Claude

    • Kalau melihat Aider leaderboard, pengalaman saya tidak sepenuhnya sejalan karena Gemini tidak selalu unggul
      Saya hanya memakai Aider API secara langsung, jadi tidak punya pengalaman dengan AI Studio
      Claude tetap bekerja cukup baik walau prompt-nya kurang bagus, terutama saat arah yang diinginkan masih samar
      Kalau saya sudah punya arah yang jelas, Gemini 2.5 Pro (dengan Thinking aktif) lebih bagus, dan kodenya berjalan lebih stabil
      Di o4-mini dan o3 memang terasa lebih "cerdas" dalam berpikir, tetapi kodenya kurang stabil (Gemini lebih stabil)
      Semakin tinggi kompleksitasnya, Claude tampak makin melemah, dan menurut saya Gemini serta o3 layak dinilai lebih tinggi
      Sejak rilis o3-mini, saya belum pernah merasa perlu kembali ke Claude

    • Saya juga mengalami hal serupa
      Pada awalnya model ini tampak mampu menyelesaikan masalah rumit, tetapi untuk tugas sederhana justru sulit diarahkan
      Jawabannya terlalu panjang, dan karena UX adalah hal terpenting, saat ini saya lebih menyukai UX Claude Code

    • Saya juga sama; bahkan setelah membuat Gem dengan prompt yang disusun sangat rinci agar menjawab singkat, model ini tetap bertele-tele dan tidak nyaman karena sering memperluas cakupan pertanyaan tanpa perlu

    • Saya tidak punya informasi internal, tetapi rasanya model ini seperti sudah diquantize
      Muncul pola seperti mengulang satu huruf tanpa henti, sesuatu yang biasanya hanya saya lihat pada model yang diquantize

    • Saya berharap bisa rollback ke versi preview lama
      Versi preview terasa seimbang dan bahkan memberi sanggahan yang benar-benar berguna, sedangkan versi resmi (GA) berubah menjadi terlalu bernada positif

  • Saya sangat terkesan dengan Gemini sampai berhenti memakai OpenAI
    Kadang saya menguji ketiga model lewat OpenRouter, tetapi sekarang lebih dari 90% penggunaan saya adalah Gemini
    Dibandingkan tahun lalu saat 90% penggunaan saya adalah ChatGPT, ini perubahan yang cukup besar

    • Saya biasanya cukup kritis terhadap Google, tetapi kali ini model-model mereka benar-benar terasa luar biasa
      Terutama context window yang sangat besar, itu nilai tambah yang sangat signifikan

    • Saya juga begitu; kali ini saya bahkan membatalkan langganan Claude karena merasa Gemini mengejar dengan sangat cepat

  • Dengan pengumuman ini, saya rasa Flash Lite naik kelas dari "tidak berguna" menjadi "alat yang berguna"
    Flash Lite murah, dan yang paling penting, keunggulannya adalah kecepatan karena hampir selalu merespons dalam kurang dari 1 detik (minimum 200 ms, rata-rata 400 ms)
    Di layanan kami Brokk(brokk.ai) kami saat ini memakai Flash 2.0 (bukan Lite) untuk Quick Edits, dan sekarang sedang mempertimbangkan adopsi 2.5 Lite
    Saya penasaran apa gunanya model yang berada di bawah Flash 2.5 yang lebih lambat karena Thinking
    Respons cepat itu penting, jadi ketika thinking diaktifkan dan kecepatannya turun, posisinya jadi serba tanggung

    • Buat saya, selama model bisa berpikir cukup cepat, saya tidak terlalu peduli seberapa banyak thinking yang dipakai
  • Saya penasaran bagaimana orang memakai Gemini di luar bidang coding, dan kenapa memilihnya
    Saat membuat aplikasi, apakah backend GenAI dirancang agar bisa mengganti penyedia dengan mudah, apakah ada yang melakukan load balancing di antara beberapa penyedia karena harga atau reliabilitas, dan bagaimana LLM akan berubah jika suatu hari muncul spot market untuk layanan semacam ini

    • Dalam pengalaman saya, Gemini 2.5 Pro menonjol untuk pekerjaan non-coding seperti terjemahan dan ringkasan (dipakai lewat Canva)
      Itu dimungkinkan oleh ukuran jendela konteks dan batas pemakaian yang sangat besar
      Khususnya untuk pembuatan laporan riset, saya rasa Gemini lebih unggul daripada ChatGPT
      Mungkin karena Google memang kuat di pencarian, laporannya berbasis banyak sumber dan lebih akurat
      Saya juga lebih menyukai gaya tulisannya, dan kemampuan ekspor ke Google Docs juga praktis
      Namun UI-nya masih sangat tertinggal dibanding pesaing, dan ketiadaan atau lemahnya fitur inti seperti Custom instruction, Projects, dan Temporary Chat adalah kekurangan besar

    • Sangat berguna karena saya bisa memasukkan banyak dokumen NDA sekaligus, lalu dalam hitungan detik model ini mengekstrak hanya bagian yang relevan
      Berkat jendela konteks yang besar dan kemampuan tinggi untuk mengambil informasi yang tepat, model ini sangat cocok untuk pekerjaan semacam itu

    • Gemini Flash 2.0 sangat murah dan merupakan model yang kuat untuk workload kelas enterprise
      Memang bukan kecerdasan paling mutakhir, tetapi dari sisi harga murah, kecepatan tinggi, dan reliabilitas output terstruktur yang bagus, saya sangat puas memakainya untuk pengembangan
      Saya berencana menguji upgrade ke 2.5 Lite

    • Saya banyak memakai lexikon.ai, dan khususnya untuk pemrosesan gambar dalam jumlah besar saya sering memakai Gemini
      Saya suka karena harga Google Vision API jauh lebih murah dibanding penyedia besar lain seperti OpenAI dan Anthropic

    • Saya memakai Gemini 2.5 Flash (opsi non-thinking) sebagai partner berpikir
      Model ini membantu merapikan pikiran saya dan juga otomatis memberi masukan yang belum sempat saya pikirkan
      Saya juga memakainya untuk refleksi diri, dengan melemparkan pikiran atau kekhawatiran saya lalu melihat respons AI sebagai bahan pertimbangan

  • Apakah ada orang lain yang saat ini tidak bisa mengakses API 2.5-pro?
    Muncul error: "projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro tidak ditemukan atau Anda tidak memiliki izin akses"
    Ada pesan panduan untuk memastikan bahwa versi model yang digunakan memang valid

  • Saya mengoperasikan layanan inferensi LLM/pemrosesan data skala besar dan sering melakukan profiling biaya serta performa berbagai model open-weight
    Hal yang masih terasa aneh dalam penetapan harga LLM adalah penyedia tetap menagih secara linear berdasarkan konsumsi token, padahal biaya sistem nyata meningkat secara kuadratik seiring bertambahnya panjang sekuens
    Karena arsitektur model, algoritma inferensi, dan perangkat keras sekarang kebanyakan sudah mirip, tampaknya penyedia sangat mengandalkan statistik historis pola permintaan pelanggan saat menentukan harga
    Pada akhirnya, setelah memperoleh data pola penggunaan nyata, munculnya kenaikan harga seperti ini menurut saya bukan hal yang aneh

  • Dibanding 2.0 Flash Lite, harga pemrosesan audio 2.5 Flash Lite naik 6,33x
    Input audio 2.5 Flash Lite adalah $0.5 per 1 juta token, sedangkan di 2.0 hanya $0.075
    Saya penasaran kenapa harga token audio bisa naik sedrastis ini

  • Dengan asumsi rasio token input:output adalah 3:1, blended price naik 3,24x dibanding sebelumnya, dan dibanding 2.0 Flash hampir mendekati 5x
    Karena itu, 2.0 Flash tampaknya masih akan kompetitif untuk banyak use case, terutama di luar coding
    Walaupun performanya sedikit lebih rendah, membagi prompt menjadi beberapa kali pemanggilan mungkin justru memberi hasil nyata yang lebih baik
    Saya sempat berharap 2.5 Flash akan menjadi pilihan yang benar-benar dominan, jadi ini agak mengecewakan
    (Referensi data harga terkait bisa dilihat di sini)