1 poin oleh GN⁺ 2025-08-27 | 1 komentar | Bagikan ke WhatsApp
  • Google memperkenalkan model generasi dan pengeditan gambar tercanggih bernama Gemini 2.5 Flash Image
  • Pengguna dapat memanfaatkan fitur menggabungkan beberapa gambar menjadi satu, menjaga konsistensi karakter, serta transformasi gambar target berbasis bahasa alami
  • Model ini tersedia untuk developer dan enterprise melalui Google AI Studio, Gemini API, Vertex AI
  • Berbagai contoh penggunaan telah disiapkan, termasuk komposisi gambar, pembuatan berbasis template, dan pengeditan yang dapat diprogram
  • Gambar yang dibuat AI akan disisipi watermark digital tak terlihat SynthID, sehingga dapat diidentifikasi sebagai gambar hasil generasi/pengeditan

Pengenalan Gemini 2.5 Flash Image

Google memperkenalkan Gemini 2.5 Flash Image (nama kode nano-banana). Model ini mendukung pembuatan dan pengeditan gambar, komposisi multi-gambar, menjaga konsistensi karakter, serta modifikasi gambar komprehensif berbasis perintah bahasa alami. Selain itu, dengan memanfaatkan pengetahuan dunia milik Gemini, model ini menawarkan kualitas pengeditan dan generasi yang lebih mendalam dibanding model pembuat gambar sebelumnya

Versi sebelumnya dari Gemini 2.0 Flash memiliki keunggulan berupa latensi rendah, efisiensi biaya, dan kemudahan penggunaan, namun sesuai kebutuhan komunitas, kini diperkuat dengan kemampuan kualitas lebih tinggi dan kontrol kreatif

Model ini langsung tersedia dalam bentuk pratinjau melalui Gemini API, Google AI Studio, dan Vertex AI. Harganya adalah $30.00 per 1 juta token output, dan setiap gambar dikenai 1290 token ($0.039). Modalitas lain untuk input dan output mengikuti kebijakan harga Gemini 2.5 Flash

Contoh penggunaan nyata

Google AI Studio telah merombak build mode, sehingga fitur Gemini 2.5 Flash Image untuk aplikasi AI kustom dapat dengan mudah diuji dan dikembangkan. Pengguna bisa membuat aplikasi langsung lewat prompt, atau bebas meremix template bawaan yang sudah disediakan. Aplikasi yang selesai dapat langsung dipublikasikan dari AI Studio, atau kodenya disimpan ke GitHub

Contoh prompt: “Buatkan aplikasi pengeditan gambar yang memungkinkan pengguna mengunggah gambar dan menerapkan berbagai filter”

Menjaga konsistensi karakter

Salah satu tantangan utama dalam generasi gambar, yakni konsistensi tampilan karakter atau objek, kini dapat dijaga secara efektif. Misalnya, menempatkan orang yang sama secara alami di berbagai lingkungan, membuat satu produk dari beragam sudut dan pengaturan, atau menghasilkan aset terkait brand secara konsisten

Demonstrasi konsistensi karakter dapat dicoba melalui aplikasi template kustom di Google AI Studio, lalu kodenya bisa langsung dikustomisasi lebih lanjut

Selain itu, model ini juga unggul dalam generasi gambar berbasis template visual. Kartu properti, lencana karyawan, hingga mockup produk katalog dapat diproduksi massal dari satu template desain yang sama

Pengeditan gambar berbasis prompt

Hanya dengan perintah bahasa alami, model ini mendukung transformasi parsial dan pengeditan lokal yang presisi. Misalnya, memburamkan latar belakang, menghapus noda pada pakaian, menghapus orang dari foto, mengubah pose subjek, atau mewarnai foto hitam-putih, semuanya bisa dilakukan dengan satu prompt

Untuk mencoba kemampuan ini secara langsung, tersedia juga aplikasi template pengeditan foto berbasis UI dan prompt

Pengetahuan dunia native

Model pembuat gambar sebelumnya umumnya bagus dalam menghasilkan gambar yang estetis, tetapi kurang memiliki pemahaman semantik dan mendalam tentang dunia nyata. Gemini 2.5 Flash Image menerapkan pengetahuan dunia sebagai basis, sehingga menonjol dalam penggunaan baru

Sebagai contoh, model ini dapat membaca dan memahami diagram sketsa tangan, menjawab pertanyaan realistis, serta menjalankan perintah pengeditan yang kompleks. Karakteristik ini dapat dicoba langsung melalui aplikasi tutor pendidikan interaktif untuk AI Studio

Komposisi multi-gambar

Model ini dapat menafsirkan dan menggabungkan beberapa gambar input untuk membuat gambar komposit. Menempatkan objek ke dalam adegan lain, menata ulang ruangan dengan warna dan tekstur baru, hingga menggabungkan gambar, semuanya dapat dilakukan dengan satu prompt

Untuk ini, AI Studio juga menyediakan aplikasi template yang memungkinkan gambar produk di-drag untuk cepat dikomposisikan ke adegan baru

Panduan memulai pengembangan

Developer dapat langsung memulai lewat dokumentasi resmi, dan saat ini model tersedia dalam pratinjau. Semua aplikasi demo yang diperkenalkan di artikel ini dibuat dengan vibe code di Google AI Studio, sehingga bisa diremix dan dikustomisasi hanya lewat prompt

Melalui kerja sama dengan OpenRouter.ai, model ini dapat diakses oleh lebih dari 3 juta developer di seluruh dunia, dan saat ini menjadi model pertama di OpenRouter yang mendukung generasi gambar. Melalui kemitraan dengan fal.ai, penggunaannya juga akan diperluas ke komunitas developer media generatif yang lebih luas

Semua gambar yang dibuat atau diedit dengan Gemini 2.5 Flash Image akan menyertakan watermark digital SynthID yang tak terlihat, sehingga dapat diidentifikasi sebagai gambar hasil AI

Contoh kode Python

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

Kode di atas menunjukkan contoh memasukkan prompt dan gambar bersama-sama untuk menghasilkan hasil di Gemini 2.5 Flash Image

Umpan balik developer dan rencana ke depan

Google akan terus berfokus pada rendering teks panjang, peningkatan konsistensi karakter, serta perbaikan realisme dan detail yang lebih nyata. Masukan diterima melalui forum developer dan X (sebelumnya Twitter), dan Google menantikan berbagai pemanfaatan dari para developer

1 komentar

 
GN⁺ 2025-08-27
Opini Hacker News
  • Rasanya ini adalah momen setara GPT-4 untuk bidang model pengeditan gambar
    Gemini 2.5 Flash yang dijuluki Nano banana luar biasa bagus sampai sulit dipercaya
    Mencatat kenaikan hingga 171 poin elo di lmarena
    Kalau mencari nano banana di Twitter, bisa melihat hasil-hasil yang luar biasa
    Sebagai contoh, lihat tweet ini

    • Sudah saya uji sendiri selama beberapa minggu
      Kadang menghasilkan output yang benar-benar mengesankan, tetapi untuk mendapatkan gambar yang diinginkan tetap harus berkali-kali mengulang prompt
      Memang bukan solusi ajaib untuk semuanya, tetapi jelas merupakan kemajuan besar dan berada di level terbaik yang ada saat ini

    • Di contoh ketiga, tangan terlihat tergambar aneh
      Tampaknya model tidak bisa memutuskan harus diposisikan ke arah mana
      Namun ini bukan masalah yang dibuat Gemini, melainkan memang sudah ada pada gambar aslinya

    • Sepertinya semua kombinasi terkait "nano banana" sudah didaftarkan sebagai domain dengan UI unik masing-masing
      Jadi penasaran apakah para perantara pencari margin ini sedang memanfaatkan nama model populer untuk mengincar selisih credit

    • Sebelum AI muncul, Google sering dikritik karena memakai talenta insinyur kelas dunia hanya untuk menjual iklan
      Tetapi setelah era AI datang, talenta itu sekarang bisa dipakai untuk iklan produk terselubung
      Rasanya kita sudah melangkah sangat jauh

    • Kekurangan lain adalah jaket puffer warna pink yang diedit terlihat sedikit berbeda dari gambar referensi
      Jika model ini dipakai untuk promosi produk atau untuk kebutuhan yang sensitif terhadap detail, sepertinya bisa menimbulkan ketidakpuasan

  • Saya memperbarui situs pembanding gambar GenAI
    Situs ini berfokus sangat ketat pada kepatuhan prompt text-to-image
    Model baru Google Gemini 2.5 Flash (nano-banana) juga sudah dimasukkan
    Model ini tepat menjawab 8 dari 12 prompt, dengan hasil yang hampir menyamai model teratas seperti Imagen dan gpt-image-1
    Ini peningkatan besar dibanding Gemini Flash 2.0 sebelumnya
    gpt-image-1 yang berada di posisi pertama hanya unggul tipis pada labirin dan bintang 9 sudut
    Hal yang paling mengejutkan adalah gpt-image-1 sudah memimpin hampir 6 bulan (di bidang ini, 6 bulan rasanya seperti selamanya)
    Namun gpt-image-1 hampir tidak berguna sebagai "editor", karena ia mengubah keseluruhan gambar, bukan melakukan inpainting seperti Kontext, Qwen, dan Nano-Banana
    Link perbandingan OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana, dll.

    • Rasanya memang perlu benchmark terpisah untuk pengeditan kalimat

    • gpt-image-1 tidak berguna sebagai "editor"
      Saya masuk ke thread ini justru untuk mencari komentar ini
      Menurut saya ini pendekatan yang sangat bagus untuk membandingkan kepatuhan prompt antar model
      Karena prompt bergaya inpainting belakangan makin menonjol, saya penasaran apakah ada rencana menambahkan kemampuan edit juga

    • Saya tidak paham kenapa Hunyuan, OpenAI 4o, dan Gwen dianggap lolos dalam tes gurita
      Mereka tidak mencakup semua "masing-masing tentakel"
      Midjourney malah memakaikan boneka kaus kaki pada 9 dari 8 lengannya

    • Menarik bahwa hasil gambar Imagen 4 dan Gemini 2.5 Flash tampak terlalu mirip di beberapa test case
      Mungkin Gemini 2.5 Flash di belakang layar terlebih dahulu membuat gambar baseline dengan Imagen (model difusi), lalu sisi Gemini menambahkan edit di atasnya agar lebih patuh pada prompt

    • Saya sangat suka situs ini
      Apakah ada yang tahu situs yang juga membandingkan seberapa baik berbagai model mengikuti style guide, misalnya ilustrasi yang digambar dalam gaya yang sama?
      Secara pribadi saya ingin fitur seperti itu ditambahkan ke situs ini
      Misalnya memberi beberapa gambar dengan gaya seorang seniman lalu membandingkan apakah model bisa membuat ilustrasi dalam gaya yang sama
      Ini akan sangat berguna untuk hal seperti ilustrasi buku yang membutuhkan konsistensi gaya

  • Hanya Gemini 2.5 Flash Image yang benar-benar bisa menangani beberapa gambar sekaligus tanpa trik aneh
    Misalnya Flux Kontext mengharuskan kita repot-repot menggabungkan gambar terlebih dahulu jika ingin "mengomposit gambar pertama ke gambar kedua"
    Tetapi model ini bisa dipakai tanpa kerepotan itu, dan bahkan bisa diberi lebih dari dua gambar sekaligus (meski kalau terlalu banyak tentu bisa membingungkan)
    Dari pengujian singkat saya, kepatuhan saat prompt panjang juga bagus dan ekspresi sintaktis tampaknya bekerja lebih efektif
    Rasanya masih ada lebih banyak cara kontrol yang belum terungkap, jadi saya terus bereksperimen
    Harganya juga mirip dengan model pesaing, jadi saya berharap ini akan membawa perubahan besar di pasar

    • Fitur ini benar-benar menyenangkan
      Tetangga sebelah sedang liburan dan saya sedang memberi makan ikan mereka
      Saya memotret akuarium ikannya lalu meminta Gemini membuat gambar dengan prompt "letakkan akuarium di landmark kota"
      Saya kirim satu gambar setiap hari dan tetangga saya sangat menyukainya
      Lelucon kecil seperti ini menambah tawa dalam keseharian satu sama lain
  • Sayangnya, seperti produk AI lain, model ini juga terkena masalah kebijakan keamanan yang terlalu ketat
    Setengah prompt saya ditolak
    Jika pengeditan manusia tidak memungkinkan, saya jadi bertanya-tanya bagaimana menjaga konsistensi karakter
    Saya kebanyakan ingin mengedit foto yang memuat manusia, tetapi hal itu tidak bisa dilakukan dengan model ini
    Saya paham Google khawatir soal deepfake, tetapi arah ini pada akhirnya tidak bisa dihentikan dan masyarakat pada akhirnya akan harus beradaptasi
    Tren alat yang makin membatasi pengguna terasa membuat frustrasi
    Menurut saya pada akhirnya perlu ada gerakan OSS baru untuk merebut kembali kebebasan

    • Ada satu foto lama pasangan saya dan sepupunya saat kecil, berfoto bersama memakai pakaian Natal
      Keduanya hidup berjauhan selama bertahun-tahun sehingga kini menjadi kenangan yang berharga
      Bukan hanya kondisi fotonya buruk, kualitasnya juga rendah
      Tetapi sampai sekarang belum ada model AI yang bisa memulihkannya

    • Dua hari lalu saya mencoba membuat video dengan Veo secara gratis
      Saya sudah menghapus semua kata yang tampaknya tidak bermasalah, tapi tetap saja ditolak
      Mungkin masalahnya karena saya mencoba membuat "diri saya sendiri", jadi akhirnya saya menyerah

  • Saya mendigitalkan foto keluarga, tetapi ada banyak kerusakan yang sulit dipulihkan seperti color cast, noda, bekas sidik jari, dan noda film
    Sulit memperbaiki ratusan foto satu per satu, jadi saya sudah lama menunggu image generation berbasis AI berkembang cukup jauh untuk memulihkan dalam jumlah besar tanpa mengubah detail halus, terutama wajah
    Model ini tampaknya cukup bagus dalam mempertahankan detail sambil hanya memulihkan bagian yang hilang, jadi rasanya sekarang saat yang tepat untuk mencobanya

    • Semua kerusakan yang disebutkan di atas bisa diperbaiki secara otomatis lewat film scanner dengan fitur ICE dan perangkat lunak pemulihan otomatis seperti Vuescan
      Menurut saya tidak perlu mengunggah ratusan hingga ribuan foto ke AI cloud eksperimental dan proprietari hanya untuk mendapatkan hasil di bawah standar yang penuh kompresi aneh dan artefak

    • Saya kurang paham nilai dari use case seperti ini
      Bukankah pada akhirnya kita hanya membayangkan seperti apa foto itu tanpa kerusakan?
      AI upscaling di kamera ponsel juga terasa sama
      Jika ingin melihat sesuatu yang jauh, bukankah kita bisa membayangkannya saja?
      Pada akhirnya menurut saya alat AI seharusnya cukup mengotomatisasi hal-hal yang sebenarnya bisa dilakukan pengguna Photoshop terampil secara manual
      Mengarang detail baru secara sembarangan terasa seperti buang-buang waktu

    • Apakah ada yang tahu perangkat lunak yang bisa memulihkan/meningkatkan file video?
      Saya sedang mendigitalkan video tahun 2000-an dan kaset VHS milik ibu saya
      Setup digitalisasinya sudah ada, tetapi saya ingin lebih meningkatkan kualitas videonya

    • Semoga berhasil dipakai
      Kalau melihat hasil dari prompt "pemulihan foto" di contoh itu, wajah perempuan tersebut sangat menonjolkan ciri khas AI
      Tentu saya berharap ini akan membaik seiring waktu

    • Beberapa bulan lalu saya merasa Flux Kontext sudah mencapai tahap itu(https://bfl.ai/models/flux-kontext)

  • Semua gambar yang dibuat/diedit di Gemini 2.5 Flash Image akan disisipi watermark digital tak terlihat bernama SynthID untuk menandai bahwa gambar itu dibuat/diedit AI
    Saya paham tujuan dan niat baiknya, tetapi disayangkan karena sekarang bukan lagi orang dewasa yang bertanggung jawab atas dirinya sendiri, melainkan perusahaan besar yang menentukan apa yang boleh dan tidak boleh dilakukan
    Rasanya seperti diawasi

    • Saya justru ingin balik bertanya: kapan manusia pernah benar-benar menjadi orang dewasa yang bertanggung jawab saat memakai teknologi?
      Deepfake sudah sangat mungkin memperburuk ketidakpastian dalam memandang realitas
      Akan ada banyak orang yang tertipu oleh kepalsuan, dan juga orang-orang yang tidak lagi percaya pada apa pun
      Politisi akan mengklaim video yang merugikan mereka sebagai "palsu" ketika video seperti itu muncul
      Kita memang sudah hidup di era yang agak post-truth, tetapi ke depan situasinya akan menjadi lebih buruk

    • Sulit dibilang itu benar-benar gambar buatan pengguna
      Misalnya kalau seorang seniman memasang watermark pada karya pesanan, itu hanya menandakan bahwa lukisan itu adalah hasil kerjanya, dan itu tidak bisa dianggap sebagai "mengadu"
      Mungkin itu bukan maksud komentarnya, tetapi rasanya layak dipikirkan sekali

    • Saya tidak setuju dengan logika "kalau tidak ada yang disembunyikan maka tidak ada yang perlu ditakuti", tetapi saya penasaran kenapa watermark pada gambar yang dibuat/diedit AI dianggap masalah
      Sebagai catatan, secara pribadi saya justru merasa watermark pada gambar AI itu wajib

    • Ini juga bukan model yang wajib dipakai, jadi secara pribadi saya tidak menganggapnya masalah

    • Ini perlombaan senjata teknologi
      Lihat removemysynthid.com

  • Seperti kebanyakan image generator, model ini gagal pada tes tuts piano (tuts hitamnya salah)
    Contoh tes

    • Saya penasaran apa itu tes tuts piano
      Link-nya meminta akses Google Drive lewat AI Studio, jadi terasa sulit dipakai

    • Saya penasaran apakah ada model yang sampai memasukkan ide ke dalam ruang konsep, misalnya pengulangan 8 nada
      Saat merepresentasikan piano, tampaknya kata-kata di sekitar kata "piano" saja lemah untuk merepresentasikan konsep tetap seperti pengulangan oktaf, jadi mungkin itulah kekurangannya
      Rasanya sulit menghubungkan gambar dan makna secara konsisten hanya lewat kata-kata

    • Kekuatan sebenarnya model ini tampaknya bukan pada kualitas generasinya semata, melainkan pada "konsistensi antargenerasi"
      Link contoh

    • Menarik
      Orang yang pernah melihat piano sungguhan akan langsung sadar ada yang aneh, sama seperti tes rendering teks: model menghasilkan gambar yang "sekilas terlihat" mirip, padahal sebenarnya salah
      Untuk prompt umum, mungkin orang akan dengan santai menerima sesuatu seperti mengambil hasil teratas Google Images lalu berkata "nih, foto keyboard piano"

    • Model ini juga gagal pada tes teks horizontal saya

  • Saya mencoba mereproduksi sendiri contoh fork/spaghetti dan fashion bubble, tetapi hasilnya sangat berbeda dari hasil resmi
    Output-nya juga konsisten
    Saya memang menyalin gambar dari halaman iklan jadi resolusinya mungkin berbeda, tetapi prompt-nya saya pakai persis sama
    Sepertinya yang saya gunakan memang model baru itu, dan dibanding sebelumnya ini benar-benar peningkatan besar

    • Konsistensi hasilnya menarik
      Saya sudah berkali-kali menjalankan generasi untuk tes standar model gambar buatan sendiri (sampai sekarang belum pernah ada model yang benar menggambar oktaf piano), dan Gemini 2.5 Flash Image juga bukan pengecualian
      Kalau dijalankan beberapa kali lalu dibandingkan, hasilnya sama sekali tidak berubah
      Di ChatGPT, kalau diberi prompt editor, sering kali ada bagian lain yang ikut berubah selain perubahan yang memang diinginkan, tetapi di sini sama sekali tidak ada perubahan seperti itu
      Contoh gambar

    • Hasil nyata jauh lebih biasa atau ambigu dibanding yang ditampilkan di iklan
      Dalam contoh itu, pembuatan bubble subject hanya membuat bentuk mirip gelembung yang samar di dalam subjek
      Contoh fork hanya menambahkan garpu di atas mi
      Dalam kedua kasus ini, sebenarnya bisa dibilang model justru lebih patuh pada prompt, tetapi secara visual hasilnya kurang mengesankan

  • Saya merasa bersyukur tidak jadi menjadi ahli Photoshop
    Dulu sempat terasa menarik, tetapi sekarang saya lega tidak memilih jalur itu
    Sekarang satu nano-banana saja sudah cukup
    Saya yakin model-model lain juga akan segera menyusul
    Komunitas r/photoshopbattles sepertinya kini tinggal kenangan

    • Retouching adalah sebuah seni
      Bagi profesional, AI seperti ini hanyalah alat lain untuk meningkatkan efisiensi
      Yang penting bukan cuma bisa memakai Photoshop, tetapi juga kemampuan menilai dengan bijak
      Tentu kalau jumlah pekerjaan tidak bertambah, mungkin pekerjaan yang sama nantinya akan ditangani oleh lebih sedikit retoucher
      Kalau tarif turun, apakah semua orang akan melakukan lebih banyak retouching? Saya kurang tahu

    • Pandangan yang menarik
      Saya seorang programmer, tetapi di awal 2000-an saya juga belajar Photoshop dan sangat menikmati mengedit gambar
      Model generatif sekarang memang jauh lebih bagus daripada yang bisa saya buat saat itu, tetapi saya tidak merasa pengalaman dan keterampilan itu jadi tidak berarti
      Justru untuk merapikan hasil AI, Photoshop (atau sekarang Affinity Designer/Photo) sangat berguna
      Saya tidak pernah menyesalinya

    • Kalau komentar ini ditulis 10 tahun lalu, saya mungkin akan bilang setidaknya program dan keterampilan itu milik saya, dan akan tetap milik saya meski Google menaikkan biaya langganan atau menghentikan layanan
      Sekarang PS juga berbasis langganan, jadi kita hanya bisa menunggu sampai model terbuka yang bagus muncul

    • Photoshop tetap berguna
      Gambar AI memang hebat, tetapi saya tetap ingin menyusun komposisi dasar sendiri, dan untuk membersihkan artefak pada hasil AI atau menggabungkan berbagai layer AI, keterampilan manual tetap penting

    • Pada akhirnya bidang lain seperti pemrograman juga akan runtuh karena otomatisasi
      Hanya saja butuh sedikit lebih lama (5~10 tahun?)
      Engineering mungkin akan memakan waktu lebih lama karena kesalahan dan technical debt
      Gambar kalau rusak bisa digenerasikan lagi, tetapi program kalau rusak langsung menjadi tumpukan kode yang tidak bisa dipelihara
      Namun suatu hari nanti arus ini juga akan sampai ke bidang kita

  • Saat meminta Gemini membuat gambar, separuh waktu yang muncul adalah jawaban bahwa itu tidak bisa dilakukan
    Rasanya fitur-fitur Google memang terlalu sulit untuk benar-benar dipakai
    Sebagian tersebar di satu produk, sebagian lagi di produk lain, dan membingungkan harus mengaksesnya dari mana

    • Betul
      Di website tertulis "coba di Gemini", tetapi saat saya memilih Gemini 2.5 Flash, saya bahkan bingung apakah saya benar-benar sedang memakai yang dimaksud

    • Di aplikasi atau situs Gemini, model itu memang tidak ada
      Harus dipakai lewat jalur lain seperti AI Studio
      UI/UX dari pihak Google secara keseluruhan memang sangat membingungkan