Gemini 2.5 Flash Image

(developers.googleblog.com)

1 poin oleh GN⁺ 2025-08-27 | 1 komentar | Bagikan ke WhatsApp

Google memperkenalkan model generasi dan pengeditan gambar tercanggih bernama Gemini 2.5 Flash Image
Pengguna dapat memanfaatkan fitur menggabungkan beberapa gambar menjadi satu, menjaga konsistensi karakter, serta transformasi gambar target berbasis bahasa alami
Model ini tersedia untuk developer dan enterprise melalui Google AI Studio, Gemini API, Vertex AI
Berbagai contoh penggunaan telah disiapkan, termasuk komposisi gambar, pembuatan berbasis template, dan pengeditan yang dapat diprogram
Gambar yang dibuat AI akan disisipi watermark digital tak terlihat SynthID, sehingga dapat diidentifikasi sebagai gambar hasil generasi/pengeditan

Pengenalan Gemini 2.5 Flash Image

Google memperkenalkan Gemini 2.5 Flash Image (nama kode nano-banana). Model ini mendukung pembuatan dan pengeditan gambar, komposisi multi-gambar, menjaga konsistensi karakter, serta modifikasi gambar komprehensif berbasis perintah bahasa alami. Selain itu, dengan memanfaatkan pengetahuan dunia milik Gemini, model ini menawarkan kualitas pengeditan dan generasi yang lebih mendalam dibanding model pembuat gambar sebelumnya

Versi sebelumnya dari Gemini 2.0 Flash memiliki keunggulan berupa latensi rendah, efisiensi biaya, dan kemudahan penggunaan, namun sesuai kebutuhan komunitas, kini diperkuat dengan kemampuan kualitas lebih tinggi dan kontrol kreatif

Model ini langsung tersedia dalam bentuk pratinjau melalui Gemini API, Google AI Studio, dan Vertex AI. Harganya adalah $30.00 per 1 juta token output, dan setiap gambar dikenai 1290 token ($0.039). Modalitas lain untuk input dan output mengikuti kebijakan harga Gemini 2.5 Flash

Contoh penggunaan nyata

Google AI Studio telah merombak build mode, sehingga fitur Gemini 2.5 Flash Image untuk aplikasi AI kustom dapat dengan mudah diuji dan dikembangkan. Pengguna bisa membuat aplikasi langsung lewat prompt, atau bebas meremix template bawaan yang sudah disediakan. Aplikasi yang selesai dapat langsung dipublikasikan dari AI Studio, atau kodenya disimpan ke GitHub

Contoh prompt: “Buatkan aplikasi pengeditan gambar yang memungkinkan pengguna mengunggah gambar dan menerapkan berbagai filter”

Menjaga konsistensi karakter

Salah satu tantangan utama dalam generasi gambar, yakni konsistensi tampilan karakter atau objek, kini dapat dijaga secara efektif. Misalnya, menempatkan orang yang sama secara alami di berbagai lingkungan, membuat satu produk dari beragam sudut dan pengaturan, atau menghasilkan aset terkait brand secara konsisten

Demonstrasi konsistensi karakter dapat dicoba melalui aplikasi template kustom di Google AI Studio, lalu kodenya bisa langsung dikustomisasi lebih lanjut

Selain itu, model ini juga unggul dalam generasi gambar berbasis template visual. Kartu properti, lencana karyawan, hingga mockup produk katalog dapat diproduksi massal dari satu template desain yang sama

Pengeditan gambar berbasis prompt

Hanya dengan perintah bahasa alami, model ini mendukung transformasi parsial dan pengeditan lokal yang presisi. Misalnya, memburamkan latar belakang, menghapus noda pada pakaian, menghapus orang dari foto, mengubah pose subjek, atau mewarnai foto hitam-putih, semuanya bisa dilakukan dengan satu prompt

Untuk mencoba kemampuan ini secara langsung, tersedia juga aplikasi template pengeditan foto berbasis UI dan prompt

Pengetahuan dunia native

Model pembuat gambar sebelumnya umumnya bagus dalam menghasilkan gambar yang estetis, tetapi kurang memiliki pemahaman semantik dan mendalam tentang dunia nyata. Gemini 2.5 Flash Image menerapkan pengetahuan dunia sebagai basis, sehingga menonjol dalam penggunaan baru

Sebagai contoh, model ini dapat membaca dan memahami diagram sketsa tangan, menjawab pertanyaan realistis, serta menjalankan perintah pengeditan yang kompleks. Karakteristik ini dapat dicoba langsung melalui aplikasi tutor pendidikan interaktif untuk AI Studio

Komposisi multi-gambar

Model ini dapat menafsirkan dan menggabungkan beberapa gambar input untuk membuat gambar komposit. Menempatkan objek ke dalam adegan lain, menata ulang ruangan dengan warna dan tekstur baru, hingga menggabungkan gambar, semuanya dapat dilakukan dengan satu prompt

Untuk ini, AI Studio juga menyediakan aplikasi template yang memungkinkan gambar produk di-drag untuk cepat dikomposisikan ke adegan baru

Panduan memulai pengembangan

Developer dapat langsung memulai lewat dokumentasi resmi, dan saat ini model tersedia dalam pratinjau. Semua aplikasi demo yang diperkenalkan di artikel ini dibuat dengan vibe code di Google AI Studio, sehingga bisa diremix dan dikustomisasi hanya lewat prompt

Melalui kerja sama dengan OpenRouter.ai, model ini dapat diakses oleh lebih dari 3 juta developer di seluruh dunia, dan saat ini menjadi model pertama di OpenRouter yang mendukung generasi gambar. Melalui kemitraan dengan fal.ai, penggunaannya juga akan diperluas ke komunitas developer media generatif yang lebih luas

Semua gambar yang dibuat atau diedit dengan Gemini 2.5 Flash Image akan menyertakan watermark digital SynthID yang tak terlihat, sehingga dapat diidentifikasi sebagai gambar hasil AI

Contoh kode Python

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

Kode di atas menunjukkan contoh memasukkan prompt dan gambar bersama-sama untuk menghasilkan hasil di Gemini 2.5 Flash Image

Umpan balik developer dan rencana ke depan

Google akan terus berfokus pada rendering teks panjang, peningkatan konsistensi karakter, serta perbaikan realisme dan detail yang lebih nyata. Masukan diterima melalui forum developer dan X (sebelumnya Twitter), dan Google menantikan berbagai pemanfaatan dari para developer

1 komentar

GN⁺ 2025-08-27

Opini Hacker News

Rasanya ini adalah momen setara GPT-4 untuk bidang model pengeditan gambar
Gemini 2.5 Flash yang dijuluki Nano banana luar biasa bagus sampai sulit dipercaya
Mencatat kenaikan hingga 171 poin elo di lmarena
Kalau mencari nano banana di Twitter, bisa melihat hasil-hasil yang luar biasa
Sebagai contoh, lihat tweet ini
- Sudah saya uji sendiri selama beberapa minggu
  Kadang menghasilkan output yang benar-benar mengesankan, tetapi untuk mendapatkan gambar yang diinginkan tetap harus berkali-kali mengulang prompt
  Memang bukan solusi ajaib untuk semuanya, tetapi jelas merupakan kemajuan besar dan berada di level terbaik yang ada saat ini
- Di contoh ketiga, tangan terlihat tergambar aneh
  Tampaknya model tidak bisa memutuskan harus diposisikan ke arah mana
  Namun ini bukan masalah yang dibuat Gemini, melainkan memang sudah ada pada gambar aslinya
- Sepertinya semua kombinasi terkait "nano banana" sudah didaftarkan sebagai domain dengan UI unik masing-masing
  Jadi penasaran apakah para perantara pencari margin ini sedang memanfaatkan nama model populer untuk mengincar selisih credit
- Sebelum AI muncul, Google sering dikritik karena memakai talenta insinyur kelas dunia hanya untuk menjual iklan
  Tetapi setelah era AI datang, talenta itu sekarang bisa dipakai untuk iklan produk terselubung
  Rasanya kita sudah melangkah sangat jauh
- Kekurangan lain adalah jaket puffer warna pink yang diedit terlihat sedikit berbeda dari gambar referensi
  Jika model ini dipakai untuk promosi produk atau untuk kebutuhan yang sensitif terhadap detail, sepertinya bisa menimbulkan ketidakpuasan
Saya memperbarui situs pembanding gambar GenAI
Situs ini berfokus sangat ketat pada kepatuhan prompt text-to-image
Model baru Google Gemini 2.5 Flash (nano-banana) juga sudah dimasukkan
Model ini tepat menjawab 8 dari 12 prompt, dengan hasil yang hampir menyamai model teratas seperti Imagen dan gpt-image-1
Ini peningkatan besar dibanding Gemini Flash 2.0 sebelumnya
gpt-image-1 yang berada di posisi pertama hanya unggul tipis pada labirin dan bintang 9 sudut
Hal yang paling mengejutkan adalah gpt-image-1 sudah memimpin hampir 6 bulan (di bidang ini, 6 bulan rasanya seperti selamanya)
Namun gpt-image-1 hampir tidak berguna sebagai "editor", karena ia mengubah keseluruhan gambar, bukan melakukan inpainting seperti Kontext, Qwen, dan Nano-Banana
Link perbandingan OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana, dll.
- Rasanya memang perlu benchmark terpisah untuk pengeditan kalimat
- gpt-image-1 tidak berguna sebagai "editor"
  Saya masuk ke thread ini justru untuk mencari komentar ini
  Menurut saya ini pendekatan yang sangat bagus untuk membandingkan kepatuhan prompt antar model
  Karena prompt bergaya inpainting belakangan makin menonjol, saya penasaran apakah ada rencana menambahkan kemampuan edit juga
- Saya tidak paham kenapa Hunyuan, OpenAI 4o, dan Gwen dianggap lolos dalam tes gurita
  Mereka tidak mencakup semua "masing-masing tentakel"
  Midjourney malah memakaikan boneka kaus kaki pada 9 dari 8 lengannya
- Menarik bahwa hasil gambar Imagen 4 dan Gemini 2.5 Flash tampak terlalu mirip di beberapa test case
  Mungkin Gemini 2.5 Flash di belakang layar terlebih dahulu membuat gambar baseline dengan Imagen (model difusi), lalu sisi Gemini menambahkan edit di atasnya agar lebih patuh pada prompt
- Saya sangat suka situs ini
  Apakah ada yang tahu situs yang juga membandingkan seberapa baik berbagai model mengikuti style guide, misalnya ilustrasi yang digambar dalam gaya yang sama?
  Secara pribadi saya ingin fitur seperti itu ditambahkan ke situs ini
  Misalnya memberi beberapa gambar dengan gaya seorang seniman lalu membandingkan apakah model bisa membuat ilustrasi dalam gaya yang sama
  Ini akan sangat berguna untuk hal seperti ilustrasi buku yang membutuhkan konsistensi gaya
Hanya Gemini 2.5 Flash Image yang benar-benar bisa menangani beberapa gambar sekaligus tanpa trik aneh
Misalnya Flux Kontext mengharuskan kita repot-repot menggabungkan gambar terlebih dahulu jika ingin "mengomposit gambar pertama ke gambar kedua"
Tetapi model ini bisa dipakai tanpa kerepotan itu, dan bahkan bisa diberi lebih dari dua gambar sekaligus (meski kalau terlalu banyak tentu bisa membingungkan)
Dari pengujian singkat saya, kepatuhan saat prompt panjang juga bagus dan ekspresi sintaktis tampaknya bekerja lebih efektif
Rasanya masih ada lebih banyak cara kontrol yang belum terungkap, jadi saya terus bereksperimen
Harganya juga mirip dengan model pesaing, jadi saya berharap ini akan membawa perubahan besar di pasar
- Fitur ini benar-benar menyenangkan
  Tetangga sebelah sedang liburan dan saya sedang memberi makan ikan mereka
  Saya memotret akuarium ikannya lalu meminta Gemini membuat gambar dengan prompt "letakkan akuarium di landmark kota"
  Saya kirim satu gambar setiap hari dan tetangga saya sangat menyukainya
  Lelucon kecil seperti ini menambah tawa dalam keseharian satu sama lain
Sayangnya, seperti produk AI lain, model ini juga terkena masalah kebijakan keamanan yang terlalu ketat
Setengah prompt saya ditolak
Jika pengeditan manusia tidak memungkinkan, saya jadi bertanya-tanya bagaimana menjaga konsistensi karakter
Saya kebanyakan ingin mengedit foto yang memuat manusia, tetapi hal itu tidak bisa dilakukan dengan model ini
Saya paham Google khawatir soal deepfake, tetapi arah ini pada akhirnya tidak bisa dihentikan dan masyarakat pada akhirnya akan harus beradaptasi
Tren alat yang makin membatasi pengguna terasa membuat frustrasi
Menurut saya pada akhirnya perlu ada gerakan OSS baru untuk merebut kembali kebebasan
- Ada satu foto lama pasangan saya dan sepupunya saat kecil, berfoto bersama memakai pakaian Natal
  Keduanya hidup berjauhan selama bertahun-tahun sehingga kini menjadi kenangan yang berharga
  Bukan hanya kondisi fotonya buruk, kualitasnya juga rendah
  Tetapi sampai sekarang belum ada model AI yang bisa memulihkannya
- Dua hari lalu saya mencoba membuat video dengan Veo secara gratis
  Saya sudah menghapus semua kata yang tampaknya tidak bermasalah, tapi tetap saja ditolak
  Mungkin masalahnya karena saya mencoba membuat "diri saya sendiri", jadi akhirnya saya menyerah
Saya mendigitalkan foto keluarga, tetapi ada banyak kerusakan yang sulit dipulihkan seperti color cast, noda, bekas sidik jari, dan noda film
Sulit memperbaiki ratusan foto satu per satu, jadi saya sudah lama menunggu image generation berbasis AI berkembang cukup jauh untuk memulihkan dalam jumlah besar tanpa mengubah detail halus, terutama wajah
Model ini tampaknya cukup bagus dalam mempertahankan detail sambil hanya memulihkan bagian yang hilang, jadi rasanya sekarang saat yang tepat untuk mencobanya
- Semua kerusakan yang disebutkan di atas bisa diperbaiki secara otomatis lewat film scanner dengan fitur ICE dan perangkat lunak pemulihan otomatis seperti Vuescan
  Menurut saya tidak perlu mengunggah ratusan hingga ribuan foto ke AI cloud eksperimental dan proprietari hanya untuk mendapatkan hasil di bawah standar yang penuh kompresi aneh dan artefak
- Saya kurang paham nilai dari use case seperti ini
  Bukankah pada akhirnya kita hanya membayangkan seperti apa foto itu tanpa kerusakan?
  AI upscaling di kamera ponsel juga terasa sama
  Jika ingin melihat sesuatu yang jauh, bukankah kita bisa membayangkannya saja?
  Pada akhirnya menurut saya alat AI seharusnya cukup mengotomatisasi hal-hal yang sebenarnya bisa dilakukan pengguna Photoshop terampil secara manual
  Mengarang detail baru secara sembarangan terasa seperti buang-buang waktu
- Apakah ada yang tahu perangkat lunak yang bisa memulihkan/meningkatkan file video?
  Saya sedang mendigitalkan video tahun 2000-an dan kaset VHS milik ibu saya
  Setup digitalisasinya sudah ada, tetapi saya ingin lebih meningkatkan kualitas videonya
- Semoga berhasil dipakai
  Kalau melihat hasil dari prompt "pemulihan foto" di contoh itu, wajah perempuan tersebut sangat menonjolkan ciri khas AI
  Tentu saya berharap ini akan membaik seiring waktu
- Beberapa bulan lalu saya merasa Flux Kontext sudah mencapai tahap itu(https://bfl.ai/models/flux-kontext)
Semua gambar yang dibuat/diedit di Gemini 2.5 Flash Image akan disisipi watermark digital tak terlihat bernama SynthID untuk menandai bahwa gambar itu dibuat/diedit AI
Saya paham tujuan dan niat baiknya, tetapi disayangkan karena sekarang bukan lagi orang dewasa yang bertanggung jawab atas dirinya sendiri, melainkan perusahaan besar yang menentukan apa yang boleh dan tidak boleh dilakukan
Rasanya seperti diawasi
- Saya justru ingin balik bertanya: kapan manusia pernah benar-benar menjadi orang dewasa yang bertanggung jawab saat memakai teknologi?
  Deepfake sudah sangat mungkin memperburuk ketidakpastian dalam memandang realitas
  Akan ada banyak orang yang tertipu oleh kepalsuan, dan juga orang-orang yang tidak lagi percaya pada apa pun
  Politisi akan mengklaim video yang merugikan mereka sebagai "palsu" ketika video seperti itu muncul
  Kita memang sudah hidup di era yang agak post-truth, tetapi ke depan situasinya akan menjadi lebih buruk
- Sulit dibilang itu benar-benar gambar buatan pengguna
  Misalnya kalau seorang seniman memasang watermark pada karya pesanan, itu hanya menandakan bahwa lukisan itu adalah hasil kerjanya, dan itu tidak bisa dianggap sebagai "mengadu"
  Mungkin itu bukan maksud komentarnya, tetapi rasanya layak dipikirkan sekali
- Saya tidak setuju dengan logika "kalau tidak ada yang disembunyikan maka tidak ada yang perlu ditakuti", tetapi saya penasaran kenapa watermark pada gambar yang dibuat/diedit AI dianggap masalah
  Sebagai catatan, secara pribadi saya justru merasa watermark pada gambar AI itu wajib
- Ini juga bukan model yang wajib dipakai, jadi secara pribadi saya tidak menganggapnya masalah
- Ini perlombaan senjata teknologi
  Lihat removemysynthid.com
Seperti kebanyakan image generator, model ini gagal pada tes tuts piano (tuts hitamnya salah)
Contoh tes
- Saya penasaran apa itu tes tuts piano
  Link-nya meminta akses Google Drive lewat AI Studio, jadi terasa sulit dipakai
- Saya penasaran apakah ada model yang sampai memasukkan ide ke dalam ruang konsep, misalnya pengulangan 8 nada
  Saat merepresentasikan piano, tampaknya kata-kata di sekitar kata "piano" saja lemah untuk merepresentasikan konsep tetap seperti pengulangan oktaf, jadi mungkin itulah kekurangannya
  Rasanya sulit menghubungkan gambar dan makna secara konsisten hanya lewat kata-kata
- Kekuatan sebenarnya model ini tampaknya bukan pada kualitas generasinya semata, melainkan pada "konsistensi antargenerasi"
  Link contoh
- Menarik
  Orang yang pernah melihat piano sungguhan akan langsung sadar ada yang aneh, sama seperti tes rendering teks: model menghasilkan gambar yang "sekilas terlihat" mirip, padahal sebenarnya salah
  Untuk prompt umum, mungkin orang akan dengan santai menerima sesuatu seperti mengambil hasil teratas Google Images lalu berkata "nih, foto keyboard piano"
- Model ini juga gagal pada tes teks horizontal saya
Saya mencoba mereproduksi sendiri contoh fork/spaghetti dan fashion bubble, tetapi hasilnya sangat berbeda dari hasil resmi
Output-nya juga konsisten
Saya memang menyalin gambar dari halaman iklan jadi resolusinya mungkin berbeda, tetapi prompt-nya saya pakai persis sama
Sepertinya yang saya gunakan memang model baru itu, dan dibanding sebelumnya ini benar-benar peningkatan besar
- Konsistensi hasilnya menarik
  Saya sudah berkali-kali menjalankan generasi untuk tes standar model gambar buatan sendiri (sampai sekarang belum pernah ada model yang benar menggambar oktaf piano), dan Gemini 2.5 Flash Image juga bukan pengecualian
  Kalau dijalankan beberapa kali lalu dibandingkan, hasilnya sama sekali tidak berubah
  Di ChatGPT, kalau diberi prompt editor, sering kali ada bagian lain yang ikut berubah selain perubahan yang memang diinginkan, tetapi di sini sama sekali tidak ada perubahan seperti itu
  Contoh gambar
- Hasil nyata jauh lebih biasa atau ambigu dibanding yang ditampilkan di iklan
  Dalam contoh itu, pembuatan bubble subject hanya membuat bentuk mirip gelembung yang samar di dalam subjek
  Contoh fork hanya menambahkan garpu di atas mi
  Dalam kedua kasus ini, sebenarnya bisa dibilang model justru lebih patuh pada prompt, tetapi secara visual hasilnya kurang mengesankan
Saya merasa bersyukur tidak jadi menjadi ahli Photoshop
Dulu sempat terasa menarik, tetapi sekarang saya lega tidak memilih jalur itu
Sekarang satu nano-banana saja sudah cukup
Saya yakin model-model lain juga akan segera menyusul
Komunitas r/photoshopbattles sepertinya kini tinggal kenangan
- Retouching adalah sebuah seni
  Bagi profesional, AI seperti ini hanyalah alat lain untuk meningkatkan efisiensi
  Yang penting bukan cuma bisa memakai Photoshop, tetapi juga kemampuan menilai dengan bijak
  Tentu kalau jumlah pekerjaan tidak bertambah, mungkin pekerjaan yang sama nantinya akan ditangani oleh lebih sedikit retoucher
  Kalau tarif turun, apakah semua orang akan melakukan lebih banyak retouching? Saya kurang tahu
- Pandangan yang menarik
  Saya seorang programmer, tetapi di awal 2000-an saya juga belajar Photoshop dan sangat menikmati mengedit gambar
  Model generatif sekarang memang jauh lebih bagus daripada yang bisa saya buat saat itu, tetapi saya tidak merasa pengalaman dan keterampilan itu jadi tidak berarti
  Justru untuk merapikan hasil AI, Photoshop (atau sekarang Affinity Designer/Photo) sangat berguna
  Saya tidak pernah menyesalinya
- Kalau komentar ini ditulis 10 tahun lalu, saya mungkin akan bilang setidaknya program dan keterampilan itu milik saya, dan akan tetap milik saya meski Google menaikkan biaya langganan atau menghentikan layanan
  Sekarang PS juga berbasis langganan, jadi kita hanya bisa menunggu sampai model terbuka yang bagus muncul
- Photoshop tetap berguna
  Gambar AI memang hebat, tetapi saya tetap ingin menyusun komposisi dasar sendiri, dan untuk membersihkan artefak pada hasil AI atau menggabungkan berbagai layer AI, keterampilan manual tetap penting
- Pada akhirnya bidang lain seperti pemrograman juga akan runtuh karena otomatisasi
  Hanya saja butuh sedikit lebih lama (5~10 tahun?)
  Engineering mungkin akan memakan waktu lebih lama karena kesalahan dan technical debt
  Gambar kalau rusak bisa digenerasikan lagi, tetapi program kalau rusak langsung menjadi tumpukan kode yang tidak bisa dipelihara
  Namun suatu hari nanti arus ini juga akan sampai ke bidang kita
Saat meminta Gemini membuat gambar, separuh waktu yang muncul adalah jawaban bahwa itu tidak bisa dilakukan
Rasanya fitur-fitur Google memang terlalu sulit untuk benar-benar dipakai
Sebagian tersebar di satu produk, sebagian lagi di produk lain, dan membingungkan harus mengaksesnya dari mana
- Betul
  Di website tertulis "coba di Gemini", tetapi saat saya memilih Gemini 2.5 Flash, saya bahkan bingung apakah saya benar-benar sedang memakai yang dimaksud
- Di aplikasi atau situs Gemini, model itu memang tidak ada
  Harus dipakai lewat jalur lain seperti AI Studio
  UI/UX dari pihak Google secara keseluruhan memang sangat membingungkan