10 poin oleh GN⁺ 2025-08-27 | 2 komentar | Bagikan ke WhatsApp
  • Google memperkenalkan Gemini 2.5 Flash Image, yang dikenal sebagai Nano-Banana, dengan kemampuan pembuatan dan pengeditan gambar yang semakin ditingkatkan
  • Mendukung konsistensi karakter, pengeditan sebagian berbasis bahasa alami, pemanfaatan pengetahuan dunia, dan penggabungan multi-gambar
  • Developer dapat langsung menggunakan model ini melalui Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai, dan lainnya
  • Harganya adalah $30 per 1 juta output token, atau sekitar $0.039 per gambar
  • Semua hasil akan disisipi watermark SynthID digital tak terlihat

Pengenalan Gemini 2.5 Flash Image

  • Google mengumumkan Gemini 2.5 Flash Image (nama kode nano-banana), model generasi dan pengeditan gambar generasi berikutnya
  • Dengan pembaruan ini, kini dimungkinkan untuk menggabungkan beberapa gambar menjadi satu, menjaga konsistensi orang atau objek tertentu, melakukan modifikasi detail dengan bahasa alami, serta menghasilkan dan mengedit gambar berdasarkan pengetahuan dunia milik Gemini
  • Pada versi awal, Gemini 2.0 Flash sudah unggul dalam latensi rendah, efisiensi biaya, dan kemudahan penggunaan, tetapi melalui masukan pengguna, kini ditambahkan gambar berkualitas lebih tinggi dan kontrol kreatif yang lebih kuat
  • Saat ini tersedia di Gemini API, Google AI Studio, Vertex AI, dan lainnya, dengan biaya $30 per 1 juta output token (sekitar $0.039 per gambar)
  • Metode input/output lainnya juga mengikuti kebijakan harga yang sama seperti Gemini 2.5 Flash
  • Situs resmi https://deepmind.google/models/gemini/image/

Fitur utama dan skenario penggunaan

  • Upgrade “Build Mode” di Google AI Studio

    • Pengembangan aplikasi menjadi lebih mudah dengan Gemini 2.5 Flash Image
    • Developer dapat dengan cepat membuat, menguji, dan me-remix aplikasi AI kustom, lalu menerapkannya langsung dari Google AI Studio atau menyimpan kodenya ke GitHub
    • Misalnya, aplikasi dapat dibuat secara sederhana dengan prompt seperti “membuat aplikasi pengeditan gambar yang memungkinkan pengguna mengunggah gambar dan menerapkan filter”
    • Fitur memilih/me-remix template bawaan juga tersedia gratis
  • Menjaga konsistensi karakter

    • Dalam proses pembuatan gambar, menjaga tampilan karakter yang sama selama ini merupakan tantangan besar
    • Gemini 2.5 Flash Image dapat dimanfaatkan secara efektif untuk menempatkan tokoh yang sama di berbagai lingkungan, menampilkan produk dari berbagai sudut/lokasi, dan menjaga konsistensi aset merek
    • Melalui aplikasi template Google AI Studio, demonstrasi konsistensi karakter dan kustomisasi kode dapat dilakukan dengan mudah
    • Fitur ini juga dapat diterapkan untuk menjaga konsistensi desain berbasis template seperti kartu properti, lencana karyawan, dan mockup produk massal
  • Pengeditan gambar berbasis prompt bahasa alami

    • Pengguna dapat mengubah sebagian gambar hanya dengan instruksi bahasa alami
    • Contohnya termasuk blur latar belakang, menghapus noda pada kaus, menghapus orang, mengubah pose, dan mengubah gambar hitam-putih menjadi gambar berwarna
    • Tersedia aplikasi template untuk pengeditan berbasis UI/prompt sehingga pengguna dapat langsung merasakan penerapannya
  • Pemanfaatan native berbasis pengetahuan dunia

    • Sementara model sebelumnya kuat dalam menghasilkan gambar yang estetis, pemahaman semantik terhadap dunia nyata masih lemah
    • Gemini 2.5 Flash Image memungkinkan pengenalan diagram yang digambar tangan, menjawab pertanyaan tentang dunia nyata, dan menjalankan perintah pengeditan kompleks berdasarkan pengetahuan dunia
    • Sebagai contoh penerapan langsung, tersedia aplikasi yang mengubah kanvas sederhana menjadi tutor edukasi interaktif
  • Fusi multi-gambar

    • Model ini dapat memahami dan menggabungkan beberapa gambar secara alami
    • Misalnya, mendukung menempatkan produk ke latar belakang baru, mengubah tone warna dan tekstur seluruh ruangan, serta melakukan fusi gambar dengan satu prompt
    • Dengan aplikasi template, produk dapat ditempatkan lewat drag-and-drop dan menghasilkan gambar fusi yang fotorealistis

Memulai dan kemitraan

  • Dapat langsung dimulai melalui dokumentasi developer, dan saat ini masih berstatus preview tetapi akan segera distabilkan
  • Semua aplikasi demo dapat di-remix dan dikustomisasi kodenya di Google AI Studio
  • Melalui kemitraan dengan OpenRouter.ai, model ini disediakan kepada 3 juta developer, dan menjadi model pertama di antara sekitar 480 model yang didukung OpenRouter yang mampu menghasilkan gambar
  • Dukungan juga diperluas ke komunitas developer yang lebih luas melalui kolaborasi dengan fal.ai

Watermark digital dan umpan balik

  • Semua gambar yang dibuat atau diedit dengan Gemini 2.5 Flash Image akan disisipi watermark digital SynthID yang tak terlihat sehingga dapat dideteksi sebagai hasil buatan AI
  • Peningkatan fitur terus dilakukan pada kualitas teks, konsistensi karakter, detail gambar, dan lainnya
  • Masukan developer diterima secara berkala melalui forum developer Google atau X (sebelumnya Twitter)

Contoh penggunaan sederhana (kode Python)

  • Di Python, Gemini 2.5 Flash Image dapat digunakan dengan prompt dan gambar yang diinginkan melalui genai SDK serta library PIL dan io
  • Contoh: prompt bebas seperti “kucing saya sedang makan nano-banana di restoran” dapat digunakan
  • Hasil output di dalam kode dapat disimpan baik sebagai teks sederhana maupun file gambar

Arah pengembangan ke depan

  • Sedang terus dikembangkan peningkatan level untuk rendering teks panjang, konsistensi karakter yang lebih andal, dan ekspresi detail yang realistis
  • Mendorong partisipasi aktif dan umpan balik dari komunitas
  • Diharapkan Gemini 2.5 Flash Image akan memperluas berbagai pengalaman kreasi dan pengembangan

2 komentar

 
GN⁺ 2025-08-27
Opini Hacker News
  • Ini terasa seperti momen GPT-4 untuk model penyuntingan gambar. Lihat hasil yang menakjubkan di Twitter
    • nano banana, yaitu gemini 2.5 flash, performanya luar biasa hingga melonjak 171 poin elo di lmarena
    • Jika mencari nano banana di Twitter, bisa melihat hasil-hasil yang menakjubkan
    • Belakangan semua domain "nano banana" sudah terdaftar dan masing-masing menyediakan UI pembuat gambar, tetapi semuanya terasa seperti perantara yang memanfaatkan nama model populer
    • Penasaran kenapa namanya nano banana
  • Inilah model nano-banana yang terkenal itu, dan sekarang namanya di LMArena sudah berubah menjadi gemini-2.5-flash-image-preview
  • Saat mencoba membuat gambar dengan Gemini, setengah dari waktu jawabannya adalah tidak bisa
    • Selain itu, fitur-fitur yang diumumkan Google tersebar di mana-mana, jadi terasa membingungkan untuk memahami bisa dipakai di produk mana dan harus membayar di mana
  • Pada akhirnya model gambar itu seperti vampir waktu
    • Membuat satu ruangan itu mudah, tetapi membuat ruangan yang sama secara konsisten dari berbagai sudut pada dasarnya mustahil
    • Sulit dipakai untuk pekerjaan yang membutuhkan konsistensi gambar
  • Aku mendigitalkan foto keluarga, tetapi banyak yang rusak sehingga sulit dipulihkan
    • Model kali ini tampaknya bagus dalam memulihkan tanpa mengubah detail, jadi rasanya akhirnya sudah sampai pada titik yang benar-benar berguna
    • Sebenarnya cacat seperti ini bisa dipulihkan otomatis dengan pemindai film + fitur ICE dan perangkat lunak seperti Vuescan
      • Rasanya tidak perlu menyerahkan ratusan lembar ke AI cloud yang masih eksperimental
    • Ada yang tahu perangkat lunak peningkat kualitas video?
      • Aku sedang mendigitalkan kaset Video 2000 dan VHS, dan ingin sedikit meningkatkan video kenangan itu
    • Semoga hasilnya bagus, tetapi salah satu contoh terasa seperti wajahnya terlalu ter-AI-kan
    • Sebenarnya model bernama Flux Kontext sudah mencapai level ini sejak beberapa bulan lalu
  • Performa modelnya mengesankan, tetapi pada saat yang sama aku khawatir soal dampak sosialnya
    • Melihat komentar Facebook saja sudah bikin cemas
    • Aku sudah menguji SynthID dari Google, dan hasilnya cukup bagus
      • Watermark-nya tetap ada meskipun dikompresi, di-crop, di-resize, dikoreksi warna, atau di-overpaint
    • Aku juga baru-baru ini tertipu penipuan deepfake saat acara peluncuran SpaceX dan kehilangan 15k BTC
      • Teknologinya sudah sangat canggih sehingga serangannya makin berbahaya
    • Komentar Facebook benar-benar terlihat seperti dijalankan oleh bot
  • Contoh lampunya cukup mengesankan
    • Sambungan daya, pencahayaan, sampai bayangannya tergambar alami
  • Aku suka karena kecepatannya jauh lebih tinggi daripada pembuatan gambar di ChatGPT
    • ChatGPT terlalu lambat sampai-sampai hasilnya harus diterima lewat notifikasi
    • Lucu membayangkan gambar seperti “wajah para investor OpenAI setelah mencoba Gemini 2.5 Flash Image”
  • Ada pekerjaan yang sudah lama ingin kulakukan
    • Yaitu mengganti objek tertentu di gambar1 dengan objek dari gambar2, dan aku ingin bisa menentukan posisinya dengan tepat
    • Sudah mencoba beberapa model, tetapi semuanya gagal, dan model kali ini hampir benar tetapi akhirnya mengganti objek yang lain
    • Penasaran apakah ada model yang memang dikhususkan untuk mengganti posisi tertentu dengan gambar referensi
    • Model ACE++ dari Alibaba mendukung fungsi seperti itu
      • Sedang dipakai di phind.design, tetapi karena ini pekerjaan yang cukup khusus, fitur seperti ini tidak umum