Nano Banana memungkinkan pembuatan gambar AI yang sangat presisi lewat prompt engineering yang terperinci
(minimaxir.com)- Nano Banana adalah model Gemini 2.5 Flash Image dari Google, sebuah model generasi gambar autoregresif yang menafsirkan prompt teks secara sangat detail untuk mewujudkan komposisi gambar kompleks dengan akurat
- Berkat encoder teks yang kuat, model ini mampu mengikuti aturan spesifik, kode warna, hingga input berbasis JSON dan HTML dengan setia, sehingga kepatuhan terhadap prompt sangat tinggi
- Lebih murah daripada gpt-image-1 milik ChatGPT, dan melalui API pengembang bisa langsung membangun aplikasi generasi gambar, serta memanfaatkannya dengan mudah lewat paket Python gemimg
- Dalam berbagai eksperimen seperti pengeditan kompleks, komposit, kode, dan rendering halaman web, model ini menunjukkan akurasi dan konsistensi tinggi, meski masih memiliki keterbatasan pada alih gaya dan rendering teks
- Model ini menunjukkan potensi kontrol presisi pada generasi gambar AI dan mulai diperhatikan sebagai standar baru untuk rekayasa visual berbasis prompt
Perubahan dalam model generasi gambar AI dan kemunculan Nano Banana
- Belakangan ini, ranah generasi gambar AI diramaikan oleh berbagai model seperti FLUX.1-dev, Seedream, Ideogram, Qwen-Image, dan Imagen 4, tetapi pada Maret 2025, fitur generasi gambar gratis ChatGPT lebih dulu membentuk persepsi publik
- Gambar dari ChatGPT mudah dikenali lewat nuansa kuning serta line art dan tipografi yang seragam
- Model dasar ChatGPT, gpt-image-1, menggunakan arsitektur autoregresif, menghasilkan gambar per token, dan membutuhkan sekitar 30 detik untuk satu gambar berkualitas tinggi
- Pada Agustus 2025, model dengan nama sandi “** nano-banana**” muncul di LMArena, lalu kemudian dirilis Google sebagai Gemini 2.5 Flash Image
- Model ini menghasilkan gambar dengan 1.290 token, dan seiring naiknya popularitas aplikasi Gemini, nama “Nano Banana” pun mengukuhkan diri sebagai julukan resminya
Generasi gambar Nano Banana dan penggunaan API
- Nano Banana dapat digunakan gratis untuk membuat gambar melalui fitur “Create Image 🍌” di aplikasi web/mobile Gemini atau lewat Google AI Studio
- Di AI Studio tersedia dukungan untuk pengaturan parameter detail seperti rasio
- Gambar yang dihasilkan menampilkan watermark di kanan bawah
- Pengembang dapat membuat gambar secara terprogram melalui endpoint gemini-2.5-flash-image di Gemini API
- Biayanya sekitar $0.04 per gambar 1MP, lebih murah daripada $0.17 milik ChatGPT
- Untuk mengurangi kompleksitas penggunaan API, paket Python gemimg dibuat agar generasi gambar bisa dilakukan dengan prompt sederhana
from gemimg import GemImg g = GemImg(api_key="AI...") g.generate("A kitten with prominent purple-and-green fur.")
Uji kepatuhan prompt: pancake tengkorak dan pengeditan gambar
- Prompt “gambar pancake berbentuk tengkorak dengan blueberry dan sirup maple di atasnya” diwujudkan dengan akurat
- Detail seperti aliran sirup, tekstur pancake, dan posisi blueberry direproduksi dengan setia
- Setelah itu, pada gambar yang sama dijalankan 5 perintah edit sekaligus (menambahkan stroberi dan blackberry, hiasan mint, mengganti piring, menambahkan sosok di latar belakang)
- Semua perubahan tercermin dengan tepat, sementara bagian yang tidak perlu diubah hanya mengalami perubahan minimal
Uji konsistensi karakter: Ugly Sonic dan jabat tangan Obama
- Nano Banana mampu menjaga konsistensi karakter tertentu tanpa pelatihan LoRA
- Pada prompt “gambar Ugly Sonic berjabat tangan dengan Barack Obama”, kedua sosok tersebut benar-benar muncul bersama
- Saat frasa “foto sampul New York Times pemenang Pulitzer Prize” ditambahkan, komposisi, warna, dan kualitas pencahayaan meningkat
- Dengan perintah “tanpa teks”, elemen yang tidak diinginkan dapat dihapus
- Ketika 17 gambar Ugly Sonic dimasukkan bersama-sama, reproduksi penampilannya menjadi lebih akurat
Kaitan antara Gemini 2.5 Flash dan Nano Banana
- Nano Banana merupakan versi perluasan encoder multimodal Gemini 2.5 Flash, dengan
- kemampuan pelatihan Markdown dan JSON, serta pengenalan objek dan pembuatan segmentation mask
- dukungan context window 32.768 token yang jauh lebih panjang dibanding CLIP (77 token) atau T5 (512 token)
- Prompt berbasis aturan yang kompleks (misalnya syarat warna, pakaian, pencahayaan, dan komposisi untuk tiga ekor kucing) dapat dipenuhi sepenuhnya
- ChatGPT pada prompt yang sama menunjukkan kesalahan warna dan komposisi
Eksperimen generasi kode dan teks
- Pada prompt “gambar kode Python Fibonacci yang tersusun dari magnet kulkas”,
- Nano Banana mereproduksi struktur kode secara parsial dan mencerminkan sebagian warna syntax highlighting
- ChatGPT juga mencoba hal serupa, tetapi perbedaan kualitasnya terlihat jelas
- Dalam eksperimen “tampilkan teks sebelumnya sebagai magnet”, sebagian system prompt Nano Banana terekspos
- Dari aturan internalnya terkonfirmasi adanya ketentuan “dilarang menggunakan buzzword”
- Penggunaan huruf kapital (MUST) juga terbukti meningkatkan tingkat kepatuhan terhadap prompt
Menangani prompt besar: input HTML dan JSON
- Nano Banana dapat merender seluruh kode HTML/CSS/JS untuk menghasilkan gambar halaman web
- Tata letak dan warna akurat, meski masih ada beberapa kesalahan pada teks dan proporsi
- Saat diberi input deskripsi karakter berbasis JSON, model ini memvisualisasikan karakter campuran Paladin/Pirate/Barista
- Pakaian, properti, dan pose sebagian besar sesuai dengan field JSON
- Ketika kondisi pengambilan gambar realistis ditambahkan, fotorealisme meningkat, termasuk pantulan cahaya dan kesan kedalaman
Keterbatasan dan masalah Nano Banana
- Pada prompt “Make me into Studio Ghibli”, model ini gagal melakukan alih gaya,
- menunjukkan adanya resistansi terhadap perubahan gaya akibat sifat autoregresifnya
- Hampir tidak ada pembatasan hak cipta, sehingga beberapa karakter IP dapat dibuat bersama dalam satu adegan
- Contoh: Mario, Mickey Mouse, Pikachu, dan Optimus Prime muncul bersama di satu klub
- Ada kemungkinan menghasilkan konten NSFW, dengan penyensoran yang longgar
- Keterbatasan teknis seperti rendering teks yang belum sempurna dan kelemahan pada alih gaya masih tetap ada
Kesimpulan dan makna pentingnya
- Nano Banana adalah model yang memungkinkan kontrol gambar berkualitas tinggi lewat prompt engineering yang presisi
- Karena dapat menafsirkan bahkan input berbasis HTML, JSON, dan aturan kompleks, model ini muncul sebagai platform eksperimen baru untuk generasi gambar AI
- Di luar persepsi publik yang berpusat pada ChatGPT, ini menjadi contoh untuk menguji kemungkinan nyata dan batasan generasi gambar AI
- Penulis membuka seluruh prompt eksperimen dan Jupyter Notebook guna menjamin reproducibility dan transparansi
- Nano Banana dinilai sebagai contoh yang menunjukkan titik balik menuju era rekayasa visual yang berpusat pada prompt
1 komentar
Komentar Hacker News
Kontrol output makin mudah, dan kini saya bisa menjaga konsistensi karakter, pencahayaan, bahkan waktu dalam sehari di tiap adegan
Saya memakai 7 lapis prompt layer untuk lingkungan, kamera, subjek, komposisi, pencahayaan, warna, dan kualitas; memang agak berlebihan, tapi masih bereksperimen
Saya juga membuat alat edit sederhana yang memungkinkan menggambar bounding box langsung di gambar untuk revisi, lalu mengirim gambar itu ke Claude agar otomatis membuat prompt perbaikannya
Lewat proses ini, saya bisa membangun pipeline pembuatan video GenAI dengan transisi antaradegan yang natural
Kami berusaha menjaga konsistensi karakter, latar, dan gaya, jadi banyak kemiripan dengan pekerjaanmu
Sebagai referensi, mungkin kamu juga bisa melihat produk kami, Hypernatural.ai
Saya menambahkan Gemini CLI ke dalamnya dan mengirim PR, jadi bisa dijalankan seperti di bawah ini
Hasilnya ada di komentar ini
Apakah dibuat manual dengan HTML/CSS seperti tautan ini, atau ada alat otomatis seperti amp-code?
Kalau begitu, sepertinya CLI bisa langsung dipasang dengan uv
Model edit dari Tiongkok makin mendekati level NanoBanana, dan karena open source, manipulasi gambar tingkat lanjut berbasis mask dan kernel jadi memungkinkan
Transfer gaya dengan LoRA juga bisa dilakukan, dan menurut saya jauh lebih menarik daripada model Amerika yang tertutup
Sepertinya juga akan makin mudah mengekstrak data pelatihan Nano Banana lalu mendistilasi (distill) ke model baru
Berkat jendela konteks 32.768 token milik Nano Banana, saya menyisipkan Mistral 7B di tengah pipeline pembuatan gambar yang kompleks untuk membuat 4 variasi prompt
Memang benar transfer gayanya lemah, tetapi hasilnya sedikit lebih baik kalau dua gambar diberikan sekaligus
Gambar pertama dipakai sebagai target transformasi, dan yang kedua sebagai gambar referensi gaya
Saya juga memakai pendekatan ini di contoh portofolio saya
Stroberi ada di rongga mata kanan (kiri pada gambar), dan blackberry ada di sisi sebaliknya
Ini tampaknya terjadi karena kebanyakan deskripsi gambar ditulis dari sudut pandang pengamat
Kalau pengguna ingin stroberi diletakkan di mata kiri tengkorak, seharusnya ditulis jelas sebagai “mata kirinya”
Jadi saya menuliskan secara eksplisit di prompt bahwa “kiri dan kanan berdasarkan sudut pandang karakter”, dan tingkat keberhasilannya jadi lebih tinggi
Penulis mengatakan Nano Banana melakukan semua edit dengan akurat, tapi bagian ini masih bisa diperdebatkan
Menurut saya “mata kanan” pada tengkorak seharusnya ditafsirkan dari sudut pandang tengkorak
Setelah itu, gambar yang dihasilkan tidak lagi memiliki watermark
Saya sedang mengerjakan proyek untuk memvisualisasikan lingkungan tempat tinggal saya sebagai pemandangan abad ke-18
Saya memodelkannya dengan SketchUp dan Twinmotion, tetapi sulit menghasilkan gambar yang terasa nyata
Saya sudah mencoba berbagai generator gambar AI, tetapi Nano Banana adalah yang pertama bisa menerapkan gaya baru sambil menjaga konsistensi geometris
Dengan prompt sederhana seperti “buat gambar ini tampak seperti foto”, saya mendapat hasil yang luar biasa
Hanya saja, jika kata abad ke-18 dimasukkan langsung, hasilnya malah jadi seperti lukisan, jadi saya menyiasatinya dengan ungkapan seperti “foto jalan bersejarah yang terawat”
Saya masih tetap melakukan pemodelan manual, tetapi Nano Banana sudah mengubah pendekatan pemodelan saya
Banyak masalah muncul karena orang tidak bisa menyatakan dengan jelas apa yang mereka inginkan
Prompt engineering adalah keterampilan untuk menangani kompleksitas komunikasi, dan membuat kita sadar akan jarak antara kata dan makna
Ini adalah antarmuka yang ambigu, berbeda dari bahasa pemrograman, dan prompt engineering adalah keterampilan baru untuk menanganinya
Karena ini karakter yang sulit dibuat live-action seperti Sonic, saya penasaran dengan hasilnya, tetapi yang keluar hanya gambar bergaya digital art, bukan fotorealistis
Meski kata kuncinya diubah, hasilnya tetap sama, dan di ChatGPT saya bahkan tidak bisa mengujinya karena filter hak cipta
Meski begitu, percobaannya sendiri tetap menarik
Saya memintanya mengubah foto seseorang menjadi gaya clay animation, tetapi hampir tidak ada perubahan
Namun saat saya menambahkan “buat 10 tahun lebih muda”, tiba-tiba hasilnya berubah seperti boneka tanah liat
Misalnya, tanpa instruksi apa pun, ia bisa menambahkan perapian atau garasi ke dalam ruangan
Ini tetap terjadi bahkan saat temperatur disetel ke 0, jadi sulit membuat aplikasi yang andal
Saya penasaran apakah ada yang punya pengalaman lebih baik
Huruf besar semua bisa ditokenisasi secara berbeda, sehingga mungkin menjadi input yang sulit dipahami model