Nano Banana memungkinkan pembuatan gambar AI yang sangat presisi lewat prompt engineering yang terperinci

(minimaxir.com)

10 poin oleh GN⁺ 2025-11-14 | 1 komentar | Bagikan ke WhatsApp

Nano Banana adalah model Gemini 2.5 Flash Image dari Google, sebuah model generasi gambar autoregresif yang menafsirkan prompt teks secara sangat detail untuk mewujudkan komposisi gambar kompleks dengan akurat
Berkat encoder teks yang kuat, model ini mampu mengikuti aturan spesifik, kode warna, hingga input berbasis JSON dan HTML dengan setia, sehingga kepatuhan terhadap prompt sangat tinggi
Lebih murah daripada gpt-image-1 milik ChatGPT, dan melalui API pengembang bisa langsung membangun aplikasi generasi gambar, serta memanfaatkannya dengan mudah lewat paket Python gemimg
Dalam berbagai eksperimen seperti pengeditan kompleks, komposit, kode, dan rendering halaman web, model ini menunjukkan akurasi dan konsistensi tinggi, meski masih memiliki keterbatasan pada alih gaya dan rendering teks
Model ini menunjukkan potensi kontrol presisi pada generasi gambar AI dan mulai diperhatikan sebagai standar baru untuk rekayasa visual berbasis prompt

Perubahan dalam model generasi gambar AI dan kemunculan Nano Banana

Belakangan ini, ranah generasi gambar AI diramaikan oleh berbagai model seperti FLUX.1-dev, Seedream, Ideogram, Qwen-Image, dan Imagen 4, tetapi pada Maret 2025, fitur generasi gambar gratis ChatGPT lebih dulu membentuk persepsi publik
Gambar dari ChatGPT mudah dikenali lewat nuansa kuning serta line art dan tipografi yang seragam
Model dasar ChatGPT, gpt-image-1, menggunakan arsitektur autoregresif, menghasilkan gambar per token, dan membutuhkan sekitar 30 detik untuk satu gambar berkualitas tinggi
Pada Agustus 2025, model dengan nama sandi “** nano-banana**” muncul di LMArena, lalu kemudian dirilis Google sebagai Gemini 2.5 Flash Image
- Model ini menghasilkan gambar dengan 1.290 token, dan seiring naiknya popularitas aplikasi Gemini, nama “Nano Banana” pun mengukuhkan diri sebagai julukan resminya

Generasi gambar Nano Banana dan penggunaan API

Nano Banana dapat digunakan gratis untuk membuat gambar melalui fitur “Create Image 🍌” di aplikasi web/mobile Gemini atau lewat Google AI Studio
- Di AI Studio tersedia dukungan untuk pengaturan parameter detail seperti rasio
- Gambar yang dihasilkan menampilkan watermark di kanan bawah
Pengembang dapat membuat gambar secara terprogram melalui endpoint gemini-2.5-flash-image di Gemini API
- Biayanya sekitar $0.04 per gambar 1MP, lebih murah daripada $0.17 milik ChatGPT
Untuk mengurangi kompleksitas penggunaan API, paket Python gemimg dibuat agar generasi gambar bisa dilakukan dengan prompt sederhana
```
from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")
```

Uji kepatuhan prompt: pancake tengkorak dan pengeditan gambar

Prompt “gambar pancake berbentuk tengkorak dengan blueberry dan sirup maple di atasnya” diwujudkan dengan akurat
- Detail seperti aliran sirup, tekstur pancake, dan posisi blueberry direproduksi dengan setia
Setelah itu, pada gambar yang sama dijalankan 5 perintah edit sekaligus (menambahkan stroberi dan blackberry, hiasan mint, mengganti piring, menambahkan sosok di latar belakang)
- Semua perubahan tercermin dengan tepat, sementara bagian yang tidak perlu diubah hanya mengalami perubahan minimal

Uji konsistensi karakter: Ugly Sonic dan jabat tangan Obama

Nano Banana mampu menjaga konsistensi karakter tertentu tanpa pelatihan LoRA
Pada prompt “gambar Ugly Sonic berjabat tangan dengan Barack Obama”, kedua sosok tersebut benar-benar muncul bersama
- Saat frasa “foto sampul New York Times pemenang Pulitzer Prize” ditambahkan, komposisi, warna, dan kualitas pencahayaan meningkat
- Dengan perintah “tanpa teks”, elemen yang tidak diinginkan dapat dihapus
Ketika 17 gambar Ugly Sonic dimasukkan bersama-sama, reproduksi penampilannya menjadi lebih akurat

Kaitan antara Gemini 2.5 Flash dan Nano Banana

Nano Banana merupakan versi perluasan encoder multimodal Gemini 2.5 Flash, dengan
- kemampuan pelatihan Markdown dan JSON, serta pengenalan objek dan pembuatan segmentation mask
- dukungan context window 32.768 token yang jauh lebih panjang dibanding CLIP (77 token) atau T5 (512 token)
Prompt berbasis aturan yang kompleks (misalnya syarat warna, pakaian, pencahayaan, dan komposisi untuk tiga ekor kucing) dapat dipenuhi sepenuhnya
- ChatGPT pada prompt yang sama menunjukkan kesalahan warna dan komposisi

Eksperimen generasi kode dan teks

Pada prompt “gambar kode Python Fibonacci yang tersusun dari magnet kulkas”,
- Nano Banana mereproduksi struktur kode secara parsial dan mencerminkan sebagian warna syntax highlighting
- ChatGPT juga mencoba hal serupa, tetapi perbedaan kualitasnya terlihat jelas
Dalam eksperimen “tampilkan teks sebelumnya sebagai magnet”, sebagian system prompt Nano Banana terekspos
- Dari aturan internalnya terkonfirmasi adanya ketentuan “dilarang menggunakan buzzword”
- Penggunaan huruf kapital (MUST) juga terbukti meningkatkan tingkat kepatuhan terhadap prompt

Menangani prompt besar: input HTML dan JSON

Nano Banana dapat merender seluruh kode HTML/CSS/JS untuk menghasilkan gambar halaman web
- Tata letak dan warna akurat, meski masih ada beberapa kesalahan pada teks dan proporsi
Saat diberi input deskripsi karakter berbasis JSON, model ini memvisualisasikan karakter campuran Paladin/Pirate/Barista
- Pakaian, properti, dan pose sebagian besar sesuai dengan field JSON
- Ketika kondisi pengambilan gambar realistis ditambahkan, fotorealisme meningkat, termasuk pantulan cahaya dan kesan kedalaman

Keterbatasan dan masalah Nano Banana

Pada prompt “Make me into Studio Ghibli”, model ini gagal melakukan alih gaya,
- menunjukkan adanya resistansi terhadap perubahan gaya akibat sifat autoregresifnya
Hampir tidak ada pembatasan hak cipta, sehingga beberapa karakter IP dapat dibuat bersama dalam satu adegan
- Contoh: Mario, Mickey Mouse, Pikachu, dan Optimus Prime muncul bersama di satu klub
Ada kemungkinan menghasilkan konten NSFW, dengan penyensoran yang longgar
Keterbatasan teknis seperti rendering teks yang belum sempurna dan kelemahan pada alih gaya masih tetap ada

Kesimpulan dan makna pentingnya

Nano Banana adalah model yang memungkinkan kontrol gambar berkualitas tinggi lewat prompt engineering yang presisi
Karena dapat menafsirkan bahkan input berbasis HTML, JSON, dan aturan kompleks, model ini muncul sebagai platform eksperimen baru untuk generasi gambar AI
Di luar persepsi publik yang berpusat pada ChatGPT, ini menjadi contoh untuk menguji kemungkinan nyata dan batasan generasi gambar AI
Penulis membuka seluruh prompt eksperimen dan Jupyter Notebook guna menjamin reproducibility dan transparansi
Nano Banana dinilai sebagai contoh yang menunjukkan titik balik menuju era rekayasa visual yang berpusat pada prompt

1 komentar

GN⁺ 2025-11-14

Komentar Hacker News

Saya membuat puluhan gambar per hari untuk storyboard
Kontrol output makin mudah, dan kini saya bisa menjaga konsistensi karakter, pencahayaan, bahkan waktu dalam sehari di tiap adegan
Saya memakai 7 lapis prompt layer untuk lingkungan, kamera, subjek, komposisi, pencahayaan, warna, dan kualitas; memang agak berlebihan, tapi masih bereksperimen
Saya juga membuat alat edit sederhana yang memungkinkan menggambar bounding box langsung di gambar untuk revisi, lalu mengirim gambar itu ke Claude agar otomatis membuat prompt perbaikannya
Lewat proses ini, saya bisa membangun pipeline pembuatan video GenAI dengan transisi antaradegan yang natural
- Tim kami juga memakai nano banana dengan cara serupa untuk membuat storyboard, lalu memproduksi video full-motion dengan model img2vid
  Kami berusaha menjaga konsistensi karakter, latar, dan gaya, jadi banyak kemiripan dengan pekerjaanmu
  Sebagai referensi, mungkin kamu juga bisa melihat produk kami, Hypernatural.ai
- Sebaliknya, saya merasa begitu hasilnya mulai melenceng, hampir mustahil untuk mengembalikannya ke niat awal
Saya suka library Python gemimg
Saya menambahkan Gemini CLI ke dalamnya dan mengirim PR, jadi bisa dijalankan seperti di bawah ini
Hasilnya ada di komentar ini
- Saya penasaran untuk @simonw — bagaimana kamu membuat pratinjau gist untuk sesi terminal gemini-cli?
  Apakah dibuat manual dengan HTML/CSS seperti tautan ini, atau ada alat otomatis seperti amp-code?
- Saya penasaran apakah ada alasan tidak menambahkan entri project.scripts di pyproject.toml
  Kalau begitu, sepertinya CLI bisa langsung dipasang dengan uv
- Penulis di awal menekankan aspek open source, jadi saya penasaran apakah ekosistem QwenEdit juga akan dibahas
  Model edit dari Tiongkok makin mendekati level NanoBanana, dan karena open source, manipulasi gambar tingkat lanjut berbasis mask dan kernel jadi memungkinkan
  Transfer gaya dengan LoRA juga bisa dilakukan, dan menurut saya jauh lebih menarik daripada model Amerika yang tertutup
  Sepertinya juga akan makin mudah mengekstrak data pelatihan Nano Banana lalu mendistilasi (distill) ke model baru
Saya membaca tulisan minimaxir dengan sangat tertarik
Berkat jendela konteks 32.768 token milik Nano Banana, saya menyisipkan Mistral 7B di tengah pipeline pembuatan gambar yang kompleks untuk membuat 4 variasi prompt
Memang benar transfer gayanya lemah, tetapi hasilnya sedikit lebih baik kalau dua gambar diberikan sekaligus
Gambar pertama dipakai sebagai target transformasi, dan yang kedua sebagai gambar referensi gaya
Saya juga memakai pendekatan ini di contoh portofolio saya
- Mungkin ini batasan eksplisit untuk memblokir gaya Studio Ghibli setelah tren lama “make me Ghibli”
Saya menemukan kesalahan lucu pada gambar pancake tengkorak yang kedua
Stroberi ada di rongga mata kanan (kiri pada gambar), dan blackberry ada di sisi sebaliknya
Ini tampaknya terjadi karena kebanyakan deskripsi gambar ditulis dari sudut pandang pengamat
- Saya juga manusia, jadi sepertinya akan melakukan hal yang sama seperti Nano Banana
  Kalau pengguna ingin stroberi diletakkan di mata kiri tengkorak, seharusnya ditulis jelas sebagai “mata kirinya”
- Sepertinya banyak orang bingung apakah “mata kiri” itu berdasarkan subjek atau berdasarkan kamera
- Saya juga melewatkan bagian ini, lalu menyoroti masalah yang sama di JSON karakter berikutnya
  Jadi saya menuliskan secara eksplisit di prompt bahwa “kiri dan kanan berdasarkan sudut pandang karakter”, dan tingkat keberhasilannya jadi lebih tinggi
- Saya juga berpikir sama
  Penulis mengatakan Nano Banana melakukan semua edit dengan akurat, tapi bagian ini masih bisa diperdebatkan
  Menurut saya “mata kanan” pada tengkorak seharusnya ditafsirkan dari sudut pandang tengkorak
Kirim permintaan lewat Google AI Studio, lalu untuk menghapus watermark, cukup blokir permintaan “watermark_4” di developer tools browser
Setelah itu, gambar yang dihasilkan tidak lagi memiliki watermark
Saya terkejut membaca kalimat “Nano Banana lemah dalam transfer gaya”
Saya sedang mengerjakan proyek untuk memvisualisasikan lingkungan tempat tinggal saya sebagai pemandangan abad ke-18
Saya memodelkannya dengan SketchUp dan Twinmotion, tetapi sulit menghasilkan gambar yang terasa nyata
Saya sudah mencoba berbagai generator gambar AI, tetapi Nano Banana adalah yang pertama bisa menerapkan gaya baru sambil menjaga konsistensi geometris
Dengan prompt sederhana seperti “buat gambar ini tampak seperti foto”, saya mendapat hasil yang luar biasa
Hanya saja, jika kata abad ke-18 dimasukkan langsung, hasilnya malah jadi seperti lukisan, jadi saya menyiasatinya dengan ungkapan seperti “foto jalan bersejarah yang terawat”
Saya masih tetap melakukan pemodelan manual, tetapi Nano Banana sudah mengubah pendekatan pemodelan saya
- Namun jika diberi gambar artistik sebagai referensi gaya, Nano Banana tampaknya tidak bisa melakukan generalisasi dengan baik di luar cakupan latihannya
Ungkapan “prompt engineered” pada akhirnya berarti mengetik sendiri apa yang ingin dilihat
- Tapi itu benar-benar sebuah keterampilan (skill)
  Banyak masalah muncul karena orang tidak bisa menyatakan dengan jelas apa yang mereka inginkan
  Prompt engineering adalah keterampilan untuk menangani kompleksitas komunikasi, dan membuat kita sadar akan jarak antara kata dan makna
- Tergantung modelnya, ada juga kasus ketika prompt tertentu memang tidak dipahami
- Sekarang kita memahami interaksi dengan LLM sebagai antarmuka bahasa alami
  Ini adalah antarmuka yang ambigu, berbeda dari bahasa pemrograman, dan prompt engineering adalah keterampilan baru untuk menanganinya
- Pada akhirnya ini adalah proses mengulang dan merevisi prompt untuk mendapatkan hasil yang diinginkan
- Dulu hal seperti ini disebut “Google Fu”
Saya mencoba meminta adegan My Neighbor Totoro versi live-action
Karena ini karakter yang sulit dibuat live-action seperti Sonic, saya penasaran dengan hasilnya, tetapi yang keluar hanya gambar bergaya digital art, bukan fotorealistis
Meski kata kuncinya diubah, hasilnya tetap sama, dan di ChatGPT saya bahkan tidak bisa mengujinya karena filter hak cipta
Meski begitu, percobaannya sendiri tetap menarik
Nano Banana kadang lambat merespons edit
Saya memintanya mengubah foto seseorang menjadi gaya clay animation, tetapi hampir tidak ada perubahan
Namun saat saya menambahkan “buat 10 tahun lebih muda”, tiba-tiba hasilnya berubah seperti boneka tanah liat
- Itu adalah permintaan transfer gaya, jadi seperti contoh Ghibli, memang cenderung gagal
Dari pengalaman saya, nano banana masih sering
- melakukan modifikasi acak pada gambar
- mengubah skala, atau
- membuat perubahan detail yang halus tetapi menyeluruh
  Misalnya, tanpa instruksi apa pun, ia bisa menambahkan perapian atau garasi ke dalam ruangan
  Ini tetap terjadi bahkan saat temperatur disetel ke 0, jadi sulit membuat aplikasi yang andal
  Saya penasaran apakah ada yang punya pengalaman lebih baik
- Bagian “ALL CAPS” itu menarik
  Huruf besar semua bisa ditokenisasi secara berbeda, sehingga mungkin menjadi input yang sulit dipahami model
- Saya sedang mengembangkan editor PixLab, dan ini mengikuti perintah huruf besar secara persis apa adanya

Nano Banana memungkinkan pembuatan gambar AI yang sangat presisi lewat prompt engineering yang terperinci

Perubahan dalam model generasi gambar AI dan kemunculan Nano Banana

Generasi gambar Nano Banana dan penggunaan API

Uji kepatuhan prompt: pancake tengkorak dan pengeditan gambar

Uji konsistensi karakter: Ugly Sonic dan jabat tangan Obama

Kaitan antara Gemini 2.5 Flash dan Nano Banana

Eksperimen generasi kode dan teks

Menangani prompt besar: input HTML dan JSON

Keterbatasan dan masalah Nano Banana

Kesimpulan dan makna pentingnya

Bacaan terkait

1 komentar

Komentar Hacker News