Gemini 2.5 Flash Image
(developers.googleblog.com)- Google memperkenalkan model generasi dan pengeditan gambar tercanggih bernama Gemini 2.5 Flash Image
- Pengguna dapat memanfaatkan fitur menggabungkan beberapa gambar menjadi satu, menjaga konsistensi karakter, serta transformasi gambar target berbasis bahasa alami
- Model ini tersedia untuk developer dan enterprise melalui Google AI Studio, Gemini API, Vertex AI
- Berbagai contoh penggunaan telah disiapkan, termasuk komposisi gambar, pembuatan berbasis template, dan pengeditan yang dapat diprogram
- Gambar yang dibuat AI akan disisipi watermark digital tak terlihat SynthID, sehingga dapat diidentifikasi sebagai gambar hasil generasi/pengeditan
Pengenalan Gemini 2.5 Flash Image
Google memperkenalkan Gemini 2.5 Flash Image (nama kode nano-banana). Model ini mendukung pembuatan dan pengeditan gambar, komposisi multi-gambar, menjaga konsistensi karakter, serta modifikasi gambar komprehensif berbasis perintah bahasa alami. Selain itu, dengan memanfaatkan pengetahuan dunia milik Gemini, model ini menawarkan kualitas pengeditan dan generasi yang lebih mendalam dibanding model pembuat gambar sebelumnya
Versi sebelumnya dari Gemini 2.0 Flash memiliki keunggulan berupa latensi rendah, efisiensi biaya, dan kemudahan penggunaan, namun sesuai kebutuhan komunitas, kini diperkuat dengan kemampuan kualitas lebih tinggi dan kontrol kreatif
Model ini langsung tersedia dalam bentuk pratinjau melalui Gemini API, Google AI Studio, dan Vertex AI. Harganya adalah $30.00 per 1 juta token output, dan setiap gambar dikenai 1290 token ($0.039). Modalitas lain untuk input dan output mengikuti kebijakan harga Gemini 2.5 Flash
Contoh penggunaan nyata
Google AI Studio telah merombak build mode, sehingga fitur Gemini 2.5 Flash Image untuk aplikasi AI kustom dapat dengan mudah diuji dan dikembangkan. Pengguna bisa membuat aplikasi langsung lewat prompt, atau bebas meremix template bawaan yang sudah disediakan. Aplikasi yang selesai dapat langsung dipublikasikan dari AI Studio, atau kodenya disimpan ke GitHub
Contoh prompt: “Buatkan aplikasi pengeditan gambar yang memungkinkan pengguna mengunggah gambar dan menerapkan berbagai filter”
Menjaga konsistensi karakter
Salah satu tantangan utama dalam generasi gambar, yakni konsistensi tampilan karakter atau objek, kini dapat dijaga secara efektif. Misalnya, menempatkan orang yang sama secara alami di berbagai lingkungan, membuat satu produk dari beragam sudut dan pengaturan, atau menghasilkan aset terkait brand secara konsisten
Demonstrasi konsistensi karakter dapat dicoba melalui aplikasi template kustom di Google AI Studio, lalu kodenya bisa langsung dikustomisasi lebih lanjut
Selain itu, model ini juga unggul dalam generasi gambar berbasis template visual. Kartu properti, lencana karyawan, hingga mockup produk katalog dapat diproduksi massal dari satu template desain yang sama
Pengeditan gambar berbasis prompt
Hanya dengan perintah bahasa alami, model ini mendukung transformasi parsial dan pengeditan lokal yang presisi. Misalnya, memburamkan latar belakang, menghapus noda pada pakaian, menghapus orang dari foto, mengubah pose subjek, atau mewarnai foto hitam-putih, semuanya bisa dilakukan dengan satu prompt
Untuk mencoba kemampuan ini secara langsung, tersedia juga aplikasi template pengeditan foto berbasis UI dan prompt
Pengetahuan dunia native
Model pembuat gambar sebelumnya umumnya bagus dalam menghasilkan gambar yang estetis, tetapi kurang memiliki pemahaman semantik dan mendalam tentang dunia nyata. Gemini 2.5 Flash Image menerapkan pengetahuan dunia sebagai basis, sehingga menonjol dalam penggunaan baru
Sebagai contoh, model ini dapat membaca dan memahami diagram sketsa tangan, menjawab pertanyaan realistis, serta menjalankan perintah pengeditan yang kompleks. Karakteristik ini dapat dicoba langsung melalui aplikasi tutor pendidikan interaktif untuk AI Studio
Komposisi multi-gambar
Model ini dapat menafsirkan dan menggabungkan beberapa gambar input untuk membuat gambar komposit. Menempatkan objek ke dalam adegan lain, menata ulang ruangan dengan warna dan tekstur baru, hingga menggabungkan gambar, semuanya dapat dilakukan dengan satu prompt
Untuk ini, AI Studio juga menyediakan aplikasi template yang memungkinkan gambar produk di-drag untuk cepat dikomposisikan ke adegan baru
Panduan memulai pengembangan
Developer dapat langsung memulai lewat dokumentasi resmi, dan saat ini model tersedia dalam pratinjau. Semua aplikasi demo yang diperkenalkan di artikel ini dibuat dengan vibe code di Google AI Studio, sehingga bisa diremix dan dikustomisasi hanya lewat prompt
Melalui kerja sama dengan OpenRouter.ai, model ini dapat diakses oleh lebih dari 3 juta developer di seluruh dunia, dan saat ini menjadi model pertama di OpenRouter yang mendukung generasi gambar. Melalui kemitraan dengan fal.ai, penggunaannya juga akan diperluas ke komunitas developer media generatif yang lebih luas
Semua gambar yang dibuat atau diedit dengan Gemini 2.5 Flash Image akan menyertakan watermark digital SynthID yang tak terlihat, sehingga dapat diidentifikasi sebagai gambar hasil AI
Contoh kode Python
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Kode di atas menunjukkan contoh memasukkan prompt dan gambar bersama-sama untuk menghasilkan hasil di Gemini 2.5 Flash Image
Umpan balik developer dan rencana ke depan
Google akan terus berfokus pada rendering teks panjang, peningkatan konsistensi karakter, serta perbaikan realisme dan detail yang lebih nyata. Masukan diterima melalui forum developer dan X (sebelumnya Twitter), dan Google menantikan berbagai pemanfaatan dari para developer
1 komentar
Opini Hacker News
Rasanya ini adalah momen setara GPT-4 untuk bidang model pengeditan gambar
Gemini 2.5 Flash yang dijuluki Nano banana luar biasa bagus sampai sulit dipercaya
Mencatat kenaikan hingga 171 poin elo di lmarena
Kalau mencari nano banana di Twitter, bisa melihat hasil-hasil yang luar biasa
Sebagai contoh, lihat tweet ini
Sudah saya uji sendiri selama beberapa minggu
Kadang menghasilkan output yang benar-benar mengesankan, tetapi untuk mendapatkan gambar yang diinginkan tetap harus berkali-kali mengulang prompt
Memang bukan solusi ajaib untuk semuanya, tetapi jelas merupakan kemajuan besar dan berada di level terbaik yang ada saat ini
Di contoh ketiga, tangan terlihat tergambar aneh
Tampaknya model tidak bisa memutuskan harus diposisikan ke arah mana
Namun ini bukan masalah yang dibuat Gemini, melainkan memang sudah ada pada gambar aslinya
Sepertinya semua kombinasi terkait "nano banana" sudah didaftarkan sebagai domain dengan UI unik masing-masing
Jadi penasaran apakah para perantara pencari margin ini sedang memanfaatkan nama model populer untuk mengincar selisih credit
Sebelum AI muncul, Google sering dikritik karena memakai talenta insinyur kelas dunia hanya untuk menjual iklan
Tetapi setelah era AI datang, talenta itu sekarang bisa dipakai untuk iklan produk terselubung
Rasanya kita sudah melangkah sangat jauh
Kekurangan lain adalah jaket puffer warna pink yang diedit terlihat sedikit berbeda dari gambar referensi
Jika model ini dipakai untuk promosi produk atau untuk kebutuhan yang sensitif terhadap detail, sepertinya bisa menimbulkan ketidakpuasan
Saya memperbarui situs pembanding gambar GenAI
Situs ini berfokus sangat ketat pada kepatuhan prompt text-to-image
Model baru Google Gemini 2.5 Flash (nano-banana) juga sudah dimasukkan
Model ini tepat menjawab 8 dari 12 prompt, dengan hasil yang hampir menyamai model teratas seperti Imagen dan gpt-image-1
Ini peningkatan besar dibanding Gemini Flash 2.0 sebelumnya
gpt-image-1 yang berada di posisi pertama hanya unggul tipis pada labirin dan bintang 9 sudut
Hal yang paling mengejutkan adalah gpt-image-1 sudah memimpin hampir 6 bulan (di bidang ini, 6 bulan rasanya seperti selamanya)
Namun gpt-image-1 hampir tidak berguna sebagai "editor", karena ia mengubah keseluruhan gambar, bukan melakukan inpainting seperti Kontext, Qwen, dan Nano-Banana
Link perbandingan OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana, dll.
Rasanya memang perlu benchmark terpisah untuk pengeditan kalimat
Saya tidak paham kenapa Hunyuan, OpenAI 4o, dan Gwen dianggap lolos dalam tes gurita
Mereka tidak mencakup semua "masing-masing tentakel"
Midjourney malah memakaikan boneka kaus kaki pada 9 dari 8 lengannya
Menarik bahwa hasil gambar Imagen 4 dan Gemini 2.5 Flash tampak terlalu mirip di beberapa test case
Mungkin Gemini 2.5 Flash di belakang layar terlebih dahulu membuat gambar baseline dengan Imagen (model difusi), lalu sisi Gemini menambahkan edit di atasnya agar lebih patuh pada prompt
Saya sangat suka situs ini
Apakah ada yang tahu situs yang juga membandingkan seberapa baik berbagai model mengikuti style guide, misalnya ilustrasi yang digambar dalam gaya yang sama?
Secara pribadi saya ingin fitur seperti itu ditambahkan ke situs ini
Misalnya memberi beberapa gambar dengan gaya seorang seniman lalu membandingkan apakah model bisa membuat ilustrasi dalam gaya yang sama
Ini akan sangat berguna untuk hal seperti ilustrasi buku yang membutuhkan konsistensi gaya
Hanya Gemini 2.5 Flash Image yang benar-benar bisa menangani beberapa gambar sekaligus tanpa trik aneh
Misalnya Flux Kontext mengharuskan kita repot-repot menggabungkan gambar terlebih dahulu jika ingin "mengomposit gambar pertama ke gambar kedua"
Tetapi model ini bisa dipakai tanpa kerepotan itu, dan bahkan bisa diberi lebih dari dua gambar sekaligus (meski kalau terlalu banyak tentu bisa membingungkan)
Dari pengujian singkat saya, kepatuhan saat prompt panjang juga bagus dan ekspresi sintaktis tampaknya bekerja lebih efektif
Rasanya masih ada lebih banyak cara kontrol yang belum terungkap, jadi saya terus bereksperimen
Harganya juga mirip dengan model pesaing, jadi saya berharap ini akan membawa perubahan besar di pasar
Tetangga sebelah sedang liburan dan saya sedang memberi makan ikan mereka
Saya memotret akuarium ikannya lalu meminta Gemini membuat gambar dengan prompt "letakkan akuarium di landmark kota"
Saya kirim satu gambar setiap hari dan tetangga saya sangat menyukainya
Lelucon kecil seperti ini menambah tawa dalam keseharian satu sama lain
Sayangnya, seperti produk AI lain, model ini juga terkena masalah kebijakan keamanan yang terlalu ketat
Setengah prompt saya ditolak
Jika pengeditan manusia tidak memungkinkan, saya jadi bertanya-tanya bagaimana menjaga konsistensi karakter
Saya kebanyakan ingin mengedit foto yang memuat manusia, tetapi hal itu tidak bisa dilakukan dengan model ini
Saya paham Google khawatir soal deepfake, tetapi arah ini pada akhirnya tidak bisa dihentikan dan masyarakat pada akhirnya akan harus beradaptasi
Tren alat yang makin membatasi pengguna terasa membuat frustrasi
Menurut saya pada akhirnya perlu ada gerakan OSS baru untuk merebut kembali kebebasan
Ada satu foto lama pasangan saya dan sepupunya saat kecil, berfoto bersama memakai pakaian Natal
Keduanya hidup berjauhan selama bertahun-tahun sehingga kini menjadi kenangan yang berharga
Bukan hanya kondisi fotonya buruk, kualitasnya juga rendah
Tetapi sampai sekarang belum ada model AI yang bisa memulihkannya
Dua hari lalu saya mencoba membuat video dengan Veo secara gratis
Saya sudah menghapus semua kata yang tampaknya tidak bermasalah, tapi tetap saja ditolak
Mungkin masalahnya karena saya mencoba membuat "diri saya sendiri", jadi akhirnya saya menyerah
Saya mendigitalkan foto keluarga, tetapi ada banyak kerusakan yang sulit dipulihkan seperti color cast, noda, bekas sidik jari, dan noda film
Sulit memperbaiki ratusan foto satu per satu, jadi saya sudah lama menunggu image generation berbasis AI berkembang cukup jauh untuk memulihkan dalam jumlah besar tanpa mengubah detail halus, terutama wajah
Model ini tampaknya cukup bagus dalam mempertahankan detail sambil hanya memulihkan bagian yang hilang, jadi rasanya sekarang saat yang tepat untuk mencobanya
Semua kerusakan yang disebutkan di atas bisa diperbaiki secara otomatis lewat film scanner dengan fitur ICE dan perangkat lunak pemulihan otomatis seperti Vuescan
Menurut saya tidak perlu mengunggah ratusan hingga ribuan foto ke AI cloud eksperimental dan proprietari hanya untuk mendapatkan hasil di bawah standar yang penuh kompresi aneh dan artefak
Saya kurang paham nilai dari use case seperti ini
Bukankah pada akhirnya kita hanya membayangkan seperti apa foto itu tanpa kerusakan?
AI upscaling di kamera ponsel juga terasa sama
Jika ingin melihat sesuatu yang jauh, bukankah kita bisa membayangkannya saja?
Pada akhirnya menurut saya alat AI seharusnya cukup mengotomatisasi hal-hal yang sebenarnya bisa dilakukan pengguna Photoshop terampil secara manual
Mengarang detail baru secara sembarangan terasa seperti buang-buang waktu
Apakah ada yang tahu perangkat lunak yang bisa memulihkan/meningkatkan file video?
Saya sedang mendigitalkan video tahun 2000-an dan kaset VHS milik ibu saya
Setup digitalisasinya sudah ada, tetapi saya ingin lebih meningkatkan kualitas videonya
Semoga berhasil dipakai
Kalau melihat hasil dari prompt "pemulihan foto" di contoh itu, wajah perempuan tersebut sangat menonjolkan ciri khas AI
Tentu saya berharap ini akan membaik seiring waktu
Beberapa bulan lalu saya merasa Flux Kontext sudah mencapai tahap itu(https://bfl.ai/models/flux-kontext)
Semua gambar yang dibuat/diedit di Gemini 2.5 Flash Image akan disisipi watermark digital tak terlihat bernama SynthID untuk menandai bahwa gambar itu dibuat/diedit AI
Saya paham tujuan dan niat baiknya, tetapi disayangkan karena sekarang bukan lagi orang dewasa yang bertanggung jawab atas dirinya sendiri, melainkan perusahaan besar yang menentukan apa yang boleh dan tidak boleh dilakukan
Rasanya seperti diawasi
Saya justru ingin balik bertanya: kapan manusia pernah benar-benar menjadi orang dewasa yang bertanggung jawab saat memakai teknologi?
Deepfake sudah sangat mungkin memperburuk ketidakpastian dalam memandang realitas
Akan ada banyak orang yang tertipu oleh kepalsuan, dan juga orang-orang yang tidak lagi percaya pada apa pun
Politisi akan mengklaim video yang merugikan mereka sebagai "palsu" ketika video seperti itu muncul
Kita memang sudah hidup di era yang agak post-truth, tetapi ke depan situasinya akan menjadi lebih buruk
Sulit dibilang itu benar-benar gambar buatan pengguna
Misalnya kalau seorang seniman memasang watermark pada karya pesanan, itu hanya menandakan bahwa lukisan itu adalah hasil kerjanya, dan itu tidak bisa dianggap sebagai "mengadu"
Mungkin itu bukan maksud komentarnya, tetapi rasanya layak dipikirkan sekali
Saya tidak setuju dengan logika "kalau tidak ada yang disembunyikan maka tidak ada yang perlu ditakuti", tetapi saya penasaran kenapa watermark pada gambar yang dibuat/diedit AI dianggap masalah
Sebagai catatan, secara pribadi saya justru merasa watermark pada gambar AI itu wajib
Ini juga bukan model yang wajib dipakai, jadi secara pribadi saya tidak menganggapnya masalah
Ini perlombaan senjata teknologi
Lihat removemysynthid.com
Seperti kebanyakan image generator, model ini gagal pada tes tuts piano (tuts hitamnya salah)
Contoh tes
Saya penasaran apa itu tes tuts piano
Link-nya meminta akses Google Drive lewat AI Studio, jadi terasa sulit dipakai
Saya penasaran apakah ada model yang sampai memasukkan ide ke dalam ruang konsep, misalnya pengulangan 8 nada
Saat merepresentasikan piano, tampaknya kata-kata di sekitar kata "piano" saja lemah untuk merepresentasikan konsep tetap seperti pengulangan oktaf, jadi mungkin itulah kekurangannya
Rasanya sulit menghubungkan gambar dan makna secara konsisten hanya lewat kata-kata
Kekuatan sebenarnya model ini tampaknya bukan pada kualitas generasinya semata, melainkan pada "konsistensi antargenerasi"
Link contoh
Menarik
Orang yang pernah melihat piano sungguhan akan langsung sadar ada yang aneh, sama seperti tes rendering teks: model menghasilkan gambar yang "sekilas terlihat" mirip, padahal sebenarnya salah
Untuk prompt umum, mungkin orang akan dengan santai menerima sesuatu seperti mengambil hasil teratas Google Images lalu berkata "nih, foto keyboard piano"
Model ini juga gagal pada tes teks horizontal saya
Saya mencoba mereproduksi sendiri contoh fork/spaghetti dan fashion bubble, tetapi hasilnya sangat berbeda dari hasil resmi
Output-nya juga konsisten
Saya memang menyalin gambar dari halaman iklan jadi resolusinya mungkin berbeda, tetapi prompt-nya saya pakai persis sama
Sepertinya yang saya gunakan memang model baru itu, dan dibanding sebelumnya ini benar-benar peningkatan besar
Konsistensi hasilnya menarik
Saya sudah berkali-kali menjalankan generasi untuk tes standar model gambar buatan sendiri (sampai sekarang belum pernah ada model yang benar menggambar oktaf piano), dan Gemini 2.5 Flash Image juga bukan pengecualian
Kalau dijalankan beberapa kali lalu dibandingkan, hasilnya sama sekali tidak berubah
Di ChatGPT, kalau diberi prompt editor, sering kali ada bagian lain yang ikut berubah selain perubahan yang memang diinginkan, tetapi di sini sama sekali tidak ada perubahan seperti itu
Contoh gambar
Hasil nyata jauh lebih biasa atau ambigu dibanding yang ditampilkan di iklan
Dalam contoh itu, pembuatan bubble subject hanya membuat bentuk mirip gelembung yang samar di dalam subjek
Contoh fork hanya menambahkan garpu di atas mi
Dalam kedua kasus ini, sebenarnya bisa dibilang model justru lebih patuh pada prompt, tetapi secara visual hasilnya kurang mengesankan
Saya merasa bersyukur tidak jadi menjadi ahli Photoshop
Dulu sempat terasa menarik, tetapi sekarang saya lega tidak memilih jalur itu
Sekarang satu nano-banana saja sudah cukup
Saya yakin model-model lain juga akan segera menyusul
Komunitas r/photoshopbattles sepertinya kini tinggal kenangan
Retouching adalah sebuah seni
Bagi profesional, AI seperti ini hanyalah alat lain untuk meningkatkan efisiensi
Yang penting bukan cuma bisa memakai Photoshop, tetapi juga kemampuan menilai dengan bijak
Tentu kalau jumlah pekerjaan tidak bertambah, mungkin pekerjaan yang sama nantinya akan ditangani oleh lebih sedikit retoucher
Kalau tarif turun, apakah semua orang akan melakukan lebih banyak retouching? Saya kurang tahu
Pandangan yang menarik
Saya seorang programmer, tetapi di awal 2000-an saya juga belajar Photoshop dan sangat menikmati mengedit gambar
Model generatif sekarang memang jauh lebih bagus daripada yang bisa saya buat saat itu, tetapi saya tidak merasa pengalaman dan keterampilan itu jadi tidak berarti
Justru untuk merapikan hasil AI, Photoshop (atau sekarang Affinity Designer/Photo) sangat berguna
Saya tidak pernah menyesalinya
Kalau komentar ini ditulis 10 tahun lalu, saya mungkin akan bilang setidaknya program dan keterampilan itu milik saya, dan akan tetap milik saya meski Google menaikkan biaya langganan atau menghentikan layanan
Sekarang PS juga berbasis langganan, jadi kita hanya bisa menunggu sampai model terbuka yang bagus muncul
Photoshop tetap berguna
Gambar AI memang hebat, tetapi saya tetap ingin menyusun komposisi dasar sendiri, dan untuk membersihkan artefak pada hasil AI atau menggabungkan berbagai layer AI, keterampilan manual tetap penting
Pada akhirnya bidang lain seperti pemrograman juga akan runtuh karena otomatisasi
Hanya saja butuh sedikit lebih lama (5~10 tahun?)
Engineering mungkin akan memakan waktu lebih lama karena kesalahan dan technical debt
Gambar kalau rusak bisa digenerasikan lagi, tetapi program kalau rusak langsung menjadi tumpukan kode yang tidak bisa dipelihara
Namun suatu hari nanti arus ini juga akan sampai ke bidang kita
Saat meminta Gemini membuat gambar, separuh waktu yang muncul adalah jawaban bahwa itu tidak bisa dilakukan
Rasanya fitur-fitur Google memang terlalu sulit untuk benar-benar dipakai
Sebagian tersebar di satu produk, sebagian lagi di produk lain, dan membingungkan harus mengaksesnya dari mana
Betul
Di website tertulis "coba di Gemini", tetapi saat saya memilih Gemini 2.5 Flash, saya bahkan bingung apakah saya benar-benar sedang memakai yang dimaksud
Di aplikasi atau situs Gemini, model itu memang tidak ada
Harus dipakai lewat jalur lain seperti AI Studio
UI/UX dari pihak Google secara keseluruhan memang sangat membingungkan