1 poin oleh GN⁺ 2025-09-27 | 1 komentar | Bagikan ke WhatsApp
  • Google memperkenalkan versi pratinjau baru Gemini 2.5 Flash dan 2.5 Flash-Lite, dengan fokus utama pada peningkatan kualitas dan efisiensi
  • Flash-Lite dioptimalkan untuk lingkungan berkecepatan tinggi dan berbiaya rendah melalui pemahaman instruksi yang lebih baik, pengurangan jawaban yang bertele-tele, serta peningkatan kemampuan multimodal dan terjemahan
  • Flash menghadirkan kemampuan penggunaan alat yang lebih kuat dan efisiensi token yang lebih baik, sehingga performanya meningkat besar pada tugas agen yang kompleks
  • Dalam pengujian nyata, skor SWE-Bench Verified naik 5%, dan pada benchmark internal performa untuk tugas jangka panjang meningkat 15%
  • Kedua model mendukung alias -latest, sehingga fitur terbaru bisa digunakan tanpa mengubah kode, sementara pengguna yang menginginkan stabilitas tetap dapat memakai model 2.5 yang ada

Gambaran umum Gemini 2.5 Flash dan Flash-Lite

  • Versi terbaru Gemini 2.5 Flash dan Flash-Lite telah dirilis di Google AI Studio dan Vertex AI. Tujuan rilis ini adalah untuk terus menghadirkan kualitas model yang lebih baik dan efisiensi yang lebih tinggi
  • Flash-Lite dan Flash yang baru menunjukkan peningkatan besar dibanding model sebelumnya dalam kualitas keseluruhan, kecepatan, dan biaya
  • Flash-Lite mengurangi token output hingga 50%, dan Flash hingga 24%, sehingga memberikan penghematan biaya operasional dan pemrosesan yang lebih cepat

Updated Gemini 2.5 Flash-Lite

  • Peningkatan mengikuti perintah: kemampuan memahami dan menjalankan instruksi kompleks maupun system prompt meningkat signifikan
  • Lebih ringkas: menghasilkan respons yang lebih pendek dan mudah dipahami, sehingga menekan biaya token dan mengurangi latensi di lingkungan dengan trafik besar
  • Peningkatan kualitas multimodal dan terjemahan: keandalan meningkat pada transkripsi audio, pengenalan gambar, dan kualitas terjemahan
  • Versi pratinjau Flash-Lite dapat langsung dicoba dengan nama model gemini-2.5-flash-lite-preview-09-2025

Updated Gemini 2.5 Flash

  • Kemampuan penggunaan alat yang ditingkatkan: kegunaan berbasis agen dalam situasi multistep yang kompleks meningkat pesat, mencapai performa yang naik 5 poin persentase dibanding versi sebelumnya menurut SWE-Bench Verified (48.9% → 54%)
  • Efisiensi biaya yang lebih baik: menghadirkan kualitas output lebih tinggi dengan penggunaan token lebih sedikit, sehingga membantu menurunkan latensi dan biaya infrastruktur
  • Umpan balik dari pengguna Primer juga positif
    • Yichao ‘Peak’ Ji, co-founder dan Chief Scientist Manus, menilai, "Model Gemini 2.5 Flash yang baru menghadirkan kecepatan dan kecerdasan yang luar biasa sekaligus. Pada tugas agen berbasis tujuan jangka panjang, performanya meningkat 15%, sehingga skalanya dapat diperluas lebih jauh dengan efisiensi biaya sebagai fondasi"
  • Versi pratinjau Gemini 2.5 Flash tersedia dengan nama model gemini-2.5-flash-preview-09-2025

Mulai membangun dengan Gemini

  • Selama setahun terakhir, model pratinjau telah dirilis agar developer dapat dengan cepat menguji fitur terbaru dan memberikan umpan balik.
  • Versi pratinjau yang diumumkan hari ini bukan peralihan resmi ke versi stabil yang baru, melainkan digunakan sebagai dasar untuk meningkatkan kualitas versi resmi berikutnya
  • Sebagai pengganti nama model yang panjang, alias -latest ditambahkan agar model terbaru selalu mudah digunakan. Alias ini otomatis mengarah ke versi terbaru, sehingga fitur baru dapat diuji tanpa mengubah kode
    • gemini-flash-latest
    • gemini-flash-lite-latest
  • Jika versi tertentu diperbarui atau dihentikan, pemberitahuan akan dikirim melalui email setidaknya 2 minggu sebelumnya. Alias ini hanyalah referensi sederhana, dan harga, fitur, serta batasan dapat berbeda pada tiap rilis
  • Jika membutuhkan stabilitas jangka panjang, disarankan tetap menggunakan nama model gemini-2.5-flash dan gemini-2.5-flash-lite yang ada

Makna pentingnya

  • Rilis kali ini adalah pembaruan pratinjau, bukan promosi ke versi stabil resmi, sebagai bagian dari proses eksperimen dan pengumpulan umpan balik pengguna untuk model stabil di masa depan
  • Melalui Gemini, Google mengejar keseimbangan antara kecepatan, kecerdasan, dan efisiensi biaya, sambil terus meningkatkan kemampuannya agar developer dapat membangun aplikasi AI yang lebih baik

1 komentar

 
GN⁺ 2025-09-27
Komentar Hacker News
  • Ini cukup tepat menangkap masalah yang belakangan terasa saat memakai Gemini. Modelnya sendiri benar-benar bagus, tetapi saat dipakai nyata, percakapan berulang kali terpotong di tengah. Sepertinya ini bukan karena batas token atau filter, melainkan bug di mana model keliru mengirim sinyal bahwa respons sudah selesai. Isu ini sudah berbulan-bulan muncul di GitHub dan forum developer sebagai isu P2. Jika membandingkan jawaban Gemini yang lengkap dengan Claude atau GPT-4, kualitasnya sebenarnya tidak buruk sama sekali. Tapi yang penting adalah keandalan. Meski tidak sempurna, model yang selalu menjawab sampai selesai lebih nyaman dipakai. Google memang punya kemampuan teknis, tetapi selama masalah alur percakapan yang mendasar seperti ini belum diperbaiki, sebaik apa pun benchmark-nya, kesannya tetap akan terasa lebih rusak dibanding pesaing. Lihat referensi terkait di isu #707 dan diskusi forum developer
    • Menyebut kelemahan lain Gemini. Ia tidak bisa menangani tool calling dan permintaan output JSON secara bersamaan. Jika saat request ditentukan application/json, penggunaan tool jadi tidak bisa dilakukan, dan kalau ingin memakai keduanya, pilihannya hanya berharap JSON keluar dengan benar secara paksa (dan ini sering gagal), atau memakai tool di request pertama lalu memformat di request kedua. Merepotkan, tetapi setidaknya jalan memutarnya cukup sederhana
    • Ini bukan masalah Gemini saja; ChatGPT juga sering bermasalah besar dari sisi keandalan
    • Sulit dipahami kenapa hal-hal sepele seperti ini, atau bahkan scrolling di AI Studio yang tidak lancar, masih terjadi. Heran kenapa alat sekeren ini justru minim fitur dasar
    • Saya juga merasakan hal serupa. Gemini 2.5 Pro sangat cocok untuk arsitektur perangkat lunak. Namun harus terus diberi dorongan itu melelahkan. Sonnet juga sudah cukup mampu
    • chatgpt juga punya banyak masalah keandalan
  • Dukungan untuk model terkait sudah ditambahkan ke plugin llm-gemini. Bisa dijalankan lewat uvx tanpa instalasi terpisah. Contoh:
export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

Catatan rilisnya bisa dilihat di sini. Untuk diskusi terkait pelican, lihat posting ini

  • Penasaran apakah contoh gambar SVG pelikan mengendarai sepeda juga masuk ke dataset pelatihan. Banyak engineer di bidang ini yang juga sering datang ke Hacker News
  • Jadi akhirnya siapa yang menang? Katak? Bebek? Atau pelikan?
  • Kalau 2.5 adalah model yang ditingkatkan, kenapa versinya bukan 2.6? Harus membedakan 2.5 lama dan 2.5 baru jadi membingungkan. Rasanya merepotkan seperti saat Apple dulu merilis tanpa penomoran dan menyebutnya "the new iPad"
    • Karena itulah versi kedua Sonnet v3.5 sering disebut v3.6, dan Anthropic kemudian memberi nama berikutnya v3.7
    • Model biasanya disebut berdasarkan bulan/tahun rilis. Misalnya Gemini 2.5 Flash terbaru disebut "google/gemini-2.5-flash-preview-09-2025". Referensi
    • 2.5 itu bukan nama versi, melainkan penanda generasi arsitektur. Kalau pakai analogi Mazda 3, ini bukan berarti jadi ‘Mazda 4’, melainkan lebih seperti trim level baru atau refresh kecil pada model yang sama. Setuju bahwa SemVer akan lebih baik
    • Mungkin maksudnya hanya menyampaikan bahwa ini sebatas bug fix
    • Justru jadinya membingungkan untuk menilai mana yang lebih baik antara 2.6 Flash dan 2.5 Pro
  • Google tampaknya paling fokus pada latensi, TPS, dan biaya di antara penyedia model fondasi utama. Anthropic dan OpenAI memang unggul di kecerdasan model, tetapi di bawah ambang performa tertentu, respons lambat membuat alat kolaboratif terasa tidak nyaman. Sedikit kurang pintar pun, model cepat seperti Gemini terasa lebih nyaman di workflow. Meski begitu, kadang memang terasa benar-benar tumpul dibanding claude atau gpt-5
    • Secara pribadi saya ragu pembagian dikotomis seperti ini benar-benar tepat. Gemini tidak tampak tertinggal sejauh itu dalam “kecerdasan”, dan saya kira gap antar model akan makin mengecil di siklus berikutnya. Google juga tampaknya tidak hanya berfokus pada latency/TPS/biaya, tetapi juga pada integrasi cepat modelnya ke berbagai produk di luar chatbot sederhana. Misalnya bukan hanya Google Workspace dan Google Search, tetapi juga aktif bereksperimen di area baru seperti jules, labs.google/flow, dan dashboard keuangan. Tinggal menunggu waktu sampai Gemini masuk ke YouTube
    • Belakangan ini saya mengurangi penggunaan Gemini (2.5-pro). Dulu saya sangat terkesan dengan kemampuan riset mendalam dan sitasi yang andal. Tetapi dalam beberapa minggu terakhir, model ini jadi lebih suka berdebat dan gagal mengenali halusinasi terkait sumber. Contohnya, saat saya bertanya tentang akses ke secrets map di Github Actions, alih-alih memberi jawaban yang benar, ia memberikan tes workflow yang salah, lalu terus berkilah meski sudah dibantah. Sebaliknya, Chatgpt menjawab tanpa masalah. Referensi terkait: pertama, kedua
    • Secara pribadi saya melihat persaingan latency/TPS/cost ini adalah pertarungan antara grok dan gemini flash. Untuk tugas image→text, tidak ada model lain yang mendekati keduanya. OpenAI maupun Anthropic tampaknya tidak terlalu tertarik di area ini
    • Dulu 10 tahun lalu ada ungkapan, “sebelum menikah, dudukkan pasanganmu di depan internet lambat”; sekarang kita masuk ke era “sebelum menikah, dudukkan pasanganmu di depan model AI yang lambat” ;-)
    • Sulit setuju. Gemini bukan sekadar unggul dalam rasio harga/kinerja, tetapi bagi pengguna umum adalah model “serbaguna sehari-hari” terbaik. Khususnya untuk bagian “agen” seperti coding memang masih jauh di bawah Claude atau GPT-5, tetapi untuk percakapan panjang dan mengingat konteks sebelumnya, Gemini adalah yang terbaik. Saat debugging sambil menjalankan beberapa model paralel, hanya Gemini yang menangkap poin penting dari pesan-pesan sebelumnya dan memberi sampel kode yang akurat. Dukungan bahasa low-resource, OCR, dan pengenalan gambar juga sangat unggul. Hanya saja marketing dan AI UX Google saat ini paling lemah, tetapi kalau itu membaik, potensinya akan tumbuh lebih jauh. Saya sendiri juga memakai ketiga model itu hampir setiap hari
  • Ringkasan non-AI: Kedua model menjadi lebih pintar dalam indeks analisis kecerdasan buatan, dan waktu respons end-to-end juga lebih singkat. Efisiensi token output meningkat 24%~50% (membantu penghematan biaya). Peningkatan utama Gemini 2.5 Flash-Lite adalah pemahaman instruksi yang lebih baik, berkurangnya verbose yang tidak perlu, serta kemampuan multimodal/terjemahan yang lebih kuat. Gemini 2.5 Flash menonjol dalam penggunaan tool agen yang lebih kuat dan penalaran efisien token. String modelnya adalah gemini-2.5-flash-lite-preview-09-2025 dan gemini-2.5-flash-preview-09-2025
    • Cara seperti “Ringkasan non-AI” sepertinya akan jadi tren ke depan. Hanya karena tahu itu dirangkum manusia, pengalaman membacanya terasa lebih menyenangkan
    • Saya akan ambil istilah “Non-AI Summary” ini dan memakainya
    • Saya penasaran apa arti “output token efficiency”. Gemini Flash ditagih berdasarkan jumlah token input/output, jadi kalau output-nya sama, biayanya juga seharusnya sama. Artinya, kalau tokenizer atau mekanisme internalnya tidak diubah, sulit dipahami bagaimana biaya bisa turun
    • 2.5 Flash adalah yang pertama kali membuat AI benar-benar terasa berguna bagi saya. Tadinya saya pembenci AI nomor satu, tetapi sekarang saya lebih dulu membuka aplikasi Gemini daripada Google Search. Lebih akurat, tidak ada iklan, dan kebanyakan informasi yang diberikannya benar. Rasanya seperti memegang pengetahuan internet yang akurat di tangan sendiri. Saya bisa tenggelam sendirian di aplikasi Gemini membahas hal seperti suhu tanam kale. Ini terasa jauh lebih fokus daripada blog, bot, dan spam SEO di mana-mana. Namun pertanyaannya tetap: berapa lama Google akan mempertahankan ini, dan masalah cannibalizing model bisnisnya masih ada
    • Dalam banyak hal, ini tampak sebagai peningkatan bertahap dibanding versi sebelumnya
  • Keluhan kecil soal penomoran versi, tetapi akan lebih intuitif jika nomornya naik setiap ada peningkatan. Dalam bentuk sekarang, rilis seperti ini membingungkan
    • Saya juga punya keluhan yang sama. Anthropic pernah melakukan hal serupa dan memicu kontroversi “nerf” besar. Kita membeli token dalam paket, masa berlakunya juga singkat, dan kita bahkan tidak benar-benar tahu seberapa banyak modelnya diperbarui. Menurut saya, bahkan perubahan 1% menjadi lebih baik atau lebih buruk pun harus diumumkan. Pada dasarnya perusahaan AI perlu lebih menjaga transparansi dan aksesibilitas. Untuk contoh terkait, lihat Claude incident
    • Ini bukan keluhan kecil, melainkan masalah serius. Dengan kebijakan seperti ini, penomoran versi jadi kehilangan makna
    • Mungkin konsepnya memang untuk menggantikan model 2.5 Flash yang lama. Ini mengingatkan pada kasus openai yang diam-diam meng-update model 4-o dan pernah rollback karena masalah glazing di masa lalu
  • Kita perlu skema versioning bermakna seperti semver yang baru untuk tiap model. Harus bisa jelas membedakan antara optimasi kecil dan retrain penuh/perubahan arsitektur
  • Gemini 2.5 Flash adalah LLM yang paling sering saya pakai belakangan ini. Terutama untuk input gambar dan output terstruktur, ia terasa lebih baik daripada OpenAI/Anthropic
    • Gemini 2.5 Flash benar-benar mengalahkan ChatGPT 5 di bidang kerja saya. Agak mengejutkan model ini tidak lebih populer
    • Saya belum sempat mengecek apakah harganya berubah
  • Apa hanya saya yang memakai Gemini yang berbeda? Di kantor kami memakai Google Workspace, jadi Gemini sudah terpasang secara default. Tetapi dibanding model lain, hasilnya terasa buruk sekali. Semua orang memujinya, tetapi Gemini yang saya alami sering salah, terlalu panjang (saya minta ringkasan malah dapat esai), dan sama sekali tidak memuaskan. Kalau pertanyaan yang sama saya ajukan ke Gemini dan versi ChatGPT yang jauh lebih lemah, ChatGPT tetap jauh lebih baik. Apa saya melewatkan sesuatu?
    • Saya hanya pernah memakainya di ai studio, dan di sana jauh lebih unggul daripada model lain. Saya belum punya pengalaman dengan integrasi IDE dan semacamnya. Namun, perlu diingat untuk menekan kecenderungan memuji berlebihan, dan itu juga membantu mengelola context window
    • Saya juga begitu. Selain untuk terjemahan, hampir tidak pernah berguna, dan bahkan untuk terjemahan pun kadang menolak atau bertingkah aneh. Yang paling baru, untuk pertanyaan dasar pun pernah hanya mengeluarkan satu koma, atau menolak karena isu etika yang tidak jelas (misalnya “backpack dengan hoodie”). Masalah terbesarnya adalah suka menolak permintaan yang sebenarnya tidak bermasalah
    • Tergantung kegunaannya. Untuk Q&A sederhana, GPT-5 lebih baik, tetapi untuk menulis seperti mengubah kalimat menjadi laporan, ringkasan, atau penekanan tertentu, Gemini adalah yang terbaik
    • Secara pribadi, keunggulan ChatGPT adalah ia menafsirkan pertanyaan dengan baik tanpa perlu banyak klarifikasi tambahan, lalu menyusunnya dalam format yang mudah dibaca. Rasanya post-training GPT memang satu tingkat di atas
    • Mungkin saja Anda menggunakannya dengan cara yang kurang tepat
  • Gemini 2.5 Flash adalah model dengan performa-harga yang mengesankan. Meski begitu, saya tidak paham kenapa Gemini 2.0 Flash masih begitu populer. Statistik model terbaru di OpenRouter:
    • xAI: Grok Code Fast 1: 1.15T
    • Anthropic: Claude Sonnet 4: 586B
    • Google: Gemini 2.5 Flash: 325B
    • Sonoma Sky Alpha: 227B
    • Google: Gemini 2.0 Flash: 187B
    • DeepSeek: DeepSeek V3.1 (gratis): 180B
    • xAI: Grok 4 Fast (gratis): 158B
    • OpenAI: GPT-4.1 Mini: 157B
    • DeepSeek: DeepSeek V3 0324: 142B
    • Salah satu kekurangan OpenRouter adalah mereka tidak mengungkap jumlah perusahaan yang benar-benar memakai tiap model. Kalau ada satu pelanggan enterprise besar pindah, metriknya bisa langsung berubah. Akan bagus kalau bagian ini lebih transparan
    • Di perusahaan kami juga masih banyak pekerjaan yang dibiarkan tetap memakai model lama tanpa diperbarui
    • Karena harga. 2.0 Flash lebih murah daripada 2.5 Flash dan tetap model yang sangat bagus
    • 2.0 Flash memang jelas lebih murah daripada 2.5 Flash, dan sebelum update terbaru bahkan terasa lebih baik daripada 2.5-Flash-Lite. Ini pekerja keras yang bagus untuk parsing teks, ringkasan, dan pengenalan gambar. Namun sekarang dengan hadirnya 2.5-Flash-Lite, sepertinya akan tergantikan
    • Mungkin mereka juga mempertahankan skema nama 2.5 Flash karena malas repot mengganti nama agar sesuai versi terbaru.