- Google memperkenalkan Gemini 2.5 Flash Image, yang dikenal sebagai Nano-Banana, dengan kemampuan pembuatan dan pengeditan gambar yang semakin ditingkatkan
- Mendukung konsistensi karakter, pengeditan sebagian berbasis bahasa alami, pemanfaatan pengetahuan dunia, dan penggabungan multi-gambar
- Developer dapat langsung menggunakan model ini melalui Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai, dan lainnya
- Harganya adalah $30 per 1 juta output token, atau sekitar $0.039 per gambar
- Semua hasil akan disisipi watermark SynthID digital tak terlihat
Pengenalan Gemini 2.5 Flash Image
- Google mengumumkan Gemini 2.5 Flash Image (nama kode nano-banana), model generasi dan pengeditan gambar generasi berikutnya
- Dengan pembaruan ini, kini dimungkinkan untuk menggabungkan beberapa gambar menjadi satu, menjaga konsistensi orang atau objek tertentu, melakukan modifikasi detail dengan bahasa alami, serta menghasilkan dan mengedit gambar berdasarkan pengetahuan dunia milik Gemini
- Pada versi awal, Gemini 2.0 Flash sudah unggul dalam latensi rendah, efisiensi biaya, dan kemudahan penggunaan, tetapi melalui masukan pengguna, kini ditambahkan gambar berkualitas lebih tinggi dan kontrol kreatif yang lebih kuat
- Saat ini tersedia di Gemini API, Google AI Studio, Vertex AI, dan lainnya, dengan biaya $30 per 1 juta output token (sekitar $0.039 per gambar)
- Metode input/output lainnya juga mengikuti kebijakan harga yang sama seperti Gemini 2.5 Flash
- Situs resmi https://deepmind.google/models/gemini/image/
Fitur utama dan skenario penggunaan
-
Upgrade “Build Mode” di Google AI Studio
- Pengembangan aplikasi menjadi lebih mudah dengan Gemini 2.5 Flash Image
- Developer dapat dengan cepat membuat, menguji, dan me-remix aplikasi AI kustom, lalu menerapkannya langsung dari Google AI Studio atau menyimpan kodenya ke GitHub
- Misalnya, aplikasi dapat dibuat secara sederhana dengan prompt seperti “membuat aplikasi pengeditan gambar yang memungkinkan pengguna mengunggah gambar dan menerapkan filter”
- Fitur memilih/me-remix template bawaan juga tersedia gratis
-
Menjaga konsistensi karakter
- Dalam proses pembuatan gambar, menjaga tampilan karakter yang sama selama ini merupakan tantangan besar
- Gemini 2.5 Flash Image dapat dimanfaatkan secara efektif untuk menempatkan tokoh yang sama di berbagai lingkungan, menampilkan produk dari berbagai sudut/lokasi, dan menjaga konsistensi aset merek
- Melalui aplikasi template Google AI Studio, demonstrasi konsistensi karakter dan kustomisasi kode dapat dilakukan dengan mudah
- Fitur ini juga dapat diterapkan untuk menjaga konsistensi desain berbasis template seperti kartu properti, lencana karyawan, dan mockup produk massal
-
Pengeditan gambar berbasis prompt bahasa alami
- Pengguna dapat mengubah sebagian gambar hanya dengan instruksi bahasa alami
- Contohnya termasuk blur latar belakang, menghapus noda pada kaus, menghapus orang, mengubah pose, dan mengubah gambar hitam-putih menjadi gambar berwarna
- Tersedia aplikasi template untuk pengeditan berbasis UI/prompt sehingga pengguna dapat langsung merasakan penerapannya
-
Pemanfaatan native berbasis pengetahuan dunia
- Sementara model sebelumnya kuat dalam menghasilkan gambar yang estetis, pemahaman semantik terhadap dunia nyata masih lemah
- Gemini 2.5 Flash Image memungkinkan pengenalan diagram yang digambar tangan, menjawab pertanyaan tentang dunia nyata, dan menjalankan perintah pengeditan kompleks berdasarkan pengetahuan dunia
- Sebagai contoh penerapan langsung, tersedia aplikasi yang mengubah kanvas sederhana menjadi tutor edukasi interaktif
-
Fusi multi-gambar
- Model ini dapat memahami dan menggabungkan beberapa gambar secara alami
- Misalnya, mendukung menempatkan produk ke latar belakang baru, mengubah tone warna dan tekstur seluruh ruangan, serta melakukan fusi gambar dengan satu prompt
- Dengan aplikasi template, produk dapat ditempatkan lewat drag-and-drop dan menghasilkan gambar fusi yang fotorealistis
Memulai dan kemitraan
- Dapat langsung dimulai melalui dokumentasi developer, dan saat ini masih berstatus preview tetapi akan segera distabilkan
- Semua aplikasi demo dapat di-remix dan dikustomisasi kodenya di Google AI Studio
- Melalui kemitraan dengan OpenRouter.ai, model ini disediakan kepada 3 juta developer, dan menjadi model pertama di antara sekitar 480 model yang didukung OpenRouter yang mampu menghasilkan gambar
- Dukungan juga diperluas ke komunitas developer yang lebih luas melalui kolaborasi dengan fal.ai
Watermark digital dan umpan balik
- Semua gambar yang dibuat atau diedit dengan Gemini 2.5 Flash Image akan disisipi watermark digital SynthID yang tak terlihat sehingga dapat dideteksi sebagai hasil buatan AI
- Peningkatan fitur terus dilakukan pada kualitas teks, konsistensi karakter, detail gambar, dan lainnya
- Masukan developer diterima secara berkala melalui forum developer Google atau X (sebelumnya Twitter)
Contoh penggunaan sederhana (kode Python)
- Di Python, Gemini 2.5 Flash Image dapat digunakan dengan prompt dan gambar yang diinginkan melalui genai SDK serta library PIL dan io
- Contoh: prompt bebas seperti “kucing saya sedang makan nano-banana di restoran” dapat digunakan
- Hasil output di dalam kode dapat disimpan baik sebagai teks sederhana maupun file gambar
Arah pengembangan ke depan
- Sedang terus dikembangkan peningkatan level untuk rendering teks panjang, konsistensi karakter yang lebih andal, dan ekspresi detail yang realistis
- Mendorong partisipasi aktif dan umpan balik dari komunitas
- Diharapkan Gemini 2.5 Flash Image akan memperluas berbagai pengalaman kreasi dan pengembangan
2 komentar
Apa itu Google Nano Banana? AI gambar rahasia Google
Opini Hacker News