10 poin oleh GN⁺ 2025-11-14 | 1 komentar | Bagikan ke WhatsApp
  • Nano Banana adalah model Gemini 2.5 Flash Image dari Google, sebuah model generasi gambar autoregresif yang menafsirkan prompt teks secara sangat detail untuk mewujudkan komposisi gambar kompleks dengan akurat
  • Berkat encoder teks yang kuat, model ini mampu mengikuti aturan spesifik, kode warna, hingga input berbasis JSON dan HTML dengan setia, sehingga kepatuhan terhadap prompt sangat tinggi
  • Lebih murah daripada gpt-image-1 milik ChatGPT, dan melalui API pengembang bisa langsung membangun aplikasi generasi gambar, serta memanfaatkannya dengan mudah lewat paket Python gemimg
  • Dalam berbagai eksperimen seperti pengeditan kompleks, komposit, kode, dan rendering halaman web, model ini menunjukkan akurasi dan konsistensi tinggi, meski masih memiliki keterbatasan pada alih gaya dan rendering teks
  • Model ini menunjukkan potensi kontrol presisi pada generasi gambar AI dan mulai diperhatikan sebagai standar baru untuk rekayasa visual berbasis prompt

Perubahan dalam model generasi gambar AI dan kemunculan Nano Banana

  • Belakangan ini, ranah generasi gambar AI diramaikan oleh berbagai model seperti FLUX.1-dev, Seedream, Ideogram, Qwen-Image, dan Imagen 4, tetapi pada Maret 2025, fitur generasi gambar gratis ChatGPT lebih dulu membentuk persepsi publik
  • Gambar dari ChatGPT mudah dikenali lewat nuansa kuning serta line art dan tipografi yang seragam
  • Model dasar ChatGPT, gpt-image-1, menggunakan arsitektur autoregresif, menghasilkan gambar per token, dan membutuhkan sekitar 30 detik untuk satu gambar berkualitas tinggi
  • Pada Agustus 2025, model dengan nama sandi “** nano-banana**” muncul di LMArena, lalu kemudian dirilis Google sebagai Gemini 2.5 Flash Image
    • Model ini menghasilkan gambar dengan 1.290 token, dan seiring naiknya popularitas aplikasi Gemini, nama “Nano Banana” pun mengukuhkan diri sebagai julukan resminya

Generasi gambar Nano Banana dan penggunaan API

  • Nano Banana dapat digunakan gratis untuk membuat gambar melalui fitur “Create Image 🍌” di aplikasi web/mobile Gemini atau lewat Google AI Studio
    • Di AI Studio tersedia dukungan untuk pengaturan parameter detail seperti rasio
    • Gambar yang dihasilkan menampilkan watermark di kanan bawah
  • Pengembang dapat membuat gambar secara terprogram melalui endpoint gemini-2.5-flash-image di Gemini API
    • Biayanya sekitar $0.04 per gambar 1MP, lebih murah daripada $0.17 milik ChatGPT
  • Untuk mengurangi kompleksitas penggunaan API, paket Python gemimg dibuat agar generasi gambar bisa dilakukan dengan prompt sederhana
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Uji kepatuhan prompt: pancake tengkorak dan pengeditan gambar

  • Prompt “gambar pancake berbentuk tengkorak dengan blueberry dan sirup maple di atasnya” diwujudkan dengan akurat
    • Detail seperti aliran sirup, tekstur pancake, dan posisi blueberry direproduksi dengan setia
  • Setelah itu, pada gambar yang sama dijalankan 5 perintah edit sekaligus (menambahkan stroberi dan blackberry, hiasan mint, mengganti piring, menambahkan sosok di latar belakang)
    • Semua perubahan tercermin dengan tepat, sementara bagian yang tidak perlu diubah hanya mengalami perubahan minimal

Uji konsistensi karakter: Ugly Sonic dan jabat tangan Obama

  • Nano Banana mampu menjaga konsistensi karakter tertentu tanpa pelatihan LoRA
  • Pada prompt “gambar Ugly Sonic berjabat tangan dengan Barack Obama”, kedua sosok tersebut benar-benar muncul bersama
    • Saat frasa “foto sampul New York Times pemenang Pulitzer Prize” ditambahkan, komposisi, warna, dan kualitas pencahayaan meningkat
    • Dengan perintah “tanpa teks”, elemen yang tidak diinginkan dapat dihapus
  • Ketika 17 gambar Ugly Sonic dimasukkan bersama-sama, reproduksi penampilannya menjadi lebih akurat

Kaitan antara Gemini 2.5 Flash dan Nano Banana

  • Nano Banana merupakan versi perluasan encoder multimodal Gemini 2.5 Flash, dengan
    • kemampuan pelatihan Markdown dan JSON, serta pengenalan objek dan pembuatan segmentation mask
    • dukungan context window 32.768 token yang jauh lebih panjang dibanding CLIP (77 token) atau T5 (512 token)
  • Prompt berbasis aturan yang kompleks (misalnya syarat warna, pakaian, pencahayaan, dan komposisi untuk tiga ekor kucing) dapat dipenuhi sepenuhnya
    • ChatGPT pada prompt yang sama menunjukkan kesalahan warna dan komposisi

Eksperimen generasi kode dan teks

  • Pada prompt “gambar kode Python Fibonacci yang tersusun dari magnet kulkas”,
    • Nano Banana mereproduksi struktur kode secara parsial dan mencerminkan sebagian warna syntax highlighting
    • ChatGPT juga mencoba hal serupa, tetapi perbedaan kualitasnya terlihat jelas
  • Dalam eksperimen “tampilkan teks sebelumnya sebagai magnet”, sebagian system prompt Nano Banana terekspos
    • Dari aturan internalnya terkonfirmasi adanya ketentuan “dilarang menggunakan buzzword
    • Penggunaan huruf kapital (MUST) juga terbukti meningkatkan tingkat kepatuhan terhadap prompt

Menangani prompt besar: input HTML dan JSON

  • Nano Banana dapat merender seluruh kode HTML/CSS/JS untuk menghasilkan gambar halaman web
    • Tata letak dan warna akurat, meski masih ada beberapa kesalahan pada teks dan proporsi
  • Saat diberi input deskripsi karakter berbasis JSON, model ini memvisualisasikan karakter campuran Paladin/Pirate/Barista
    • Pakaian, properti, dan pose sebagian besar sesuai dengan field JSON
    • Ketika kondisi pengambilan gambar realistis ditambahkan, fotorealisme meningkat, termasuk pantulan cahaya dan kesan kedalaman

Keterbatasan dan masalah Nano Banana

  • Pada prompt “Make me into Studio Ghibli”, model ini gagal melakukan alih gaya,
    • menunjukkan adanya resistansi terhadap perubahan gaya akibat sifat autoregresifnya
  • Hampir tidak ada pembatasan hak cipta, sehingga beberapa karakter IP dapat dibuat bersama dalam satu adegan
    • Contoh: Mario, Mickey Mouse, Pikachu, dan Optimus Prime muncul bersama di satu klub
  • Ada kemungkinan menghasilkan konten NSFW, dengan penyensoran yang longgar
  • Keterbatasan teknis seperti rendering teks yang belum sempurna dan kelemahan pada alih gaya masih tetap ada

Kesimpulan dan makna pentingnya

  • Nano Banana adalah model yang memungkinkan kontrol gambar berkualitas tinggi lewat prompt engineering yang presisi
  • Karena dapat menafsirkan bahkan input berbasis HTML, JSON, dan aturan kompleks, model ini muncul sebagai platform eksperimen baru untuk generasi gambar AI
  • Di luar persepsi publik yang berpusat pada ChatGPT, ini menjadi contoh untuk menguji kemungkinan nyata dan batasan generasi gambar AI
  • Penulis membuka seluruh prompt eksperimen dan Jupyter Notebook guna menjamin reproducibility dan transparansi
  • Nano Banana dinilai sebagai contoh yang menunjukkan titik balik menuju era rekayasa visual yang berpusat pada prompt

1 komentar

 
GN⁺ 2025-11-14
Komentar Hacker News
  • Saya membuat puluhan gambar per hari untuk storyboard
    Kontrol output makin mudah, dan kini saya bisa menjaga konsistensi karakter, pencahayaan, bahkan waktu dalam sehari di tiap adegan
    Saya memakai 7 lapis prompt layer untuk lingkungan, kamera, subjek, komposisi, pencahayaan, warna, dan kualitas; memang agak berlebihan, tapi masih bereksperimen
    Saya juga membuat alat edit sederhana yang memungkinkan menggambar bounding box langsung di gambar untuk revisi, lalu mengirim gambar itu ke Claude agar otomatis membuat prompt perbaikannya
    Lewat proses ini, saya bisa membangun pipeline pembuatan video GenAI dengan transisi antaradegan yang natural
    • Tim kami juga memakai nano banana dengan cara serupa untuk membuat storyboard, lalu memproduksi video full-motion dengan model img2vid
      Kami berusaha menjaga konsistensi karakter, latar, dan gaya, jadi banyak kemiripan dengan pekerjaanmu
      Sebagai referensi, mungkin kamu juga bisa melihat produk kami, Hypernatural.ai
    • Sebaliknya, saya merasa begitu hasilnya mulai melenceng, hampir mustahil untuk mengembalikannya ke niat awal
  • Saya suka library Python gemimg
    Saya menambahkan Gemini CLI ke dalamnya dan mengirim PR, jadi bisa dijalankan seperti di bawah ini
    Hasilnya ada di komentar ini
    • Saya penasaran untuk @simonw — bagaimana kamu membuat pratinjau gist untuk sesi terminal gemini-cli?
      Apakah dibuat manual dengan HTML/CSS seperti tautan ini, atau ada alat otomatis seperti amp-code?
    • Saya penasaran apakah ada alasan tidak menambahkan entri project.scripts di pyproject.toml
      Kalau begitu, sepertinya CLI bisa langsung dipasang dengan uv
    • Penulis di awal menekankan aspek open source, jadi saya penasaran apakah ekosistem QwenEdit juga akan dibahas
      Model edit dari Tiongkok makin mendekati level NanoBanana, dan karena open source, manipulasi gambar tingkat lanjut berbasis mask dan kernel jadi memungkinkan
      Transfer gaya dengan LoRA juga bisa dilakukan, dan menurut saya jauh lebih menarik daripada model Amerika yang tertutup
      Sepertinya juga akan makin mudah mengekstrak data pelatihan Nano Banana lalu mendistilasi (distill) ke model baru
  • Saya membaca tulisan minimaxir dengan sangat tertarik
    Berkat jendela konteks 32.768 token milik Nano Banana, saya menyisipkan Mistral 7B di tengah pipeline pembuatan gambar yang kompleks untuk membuat 4 variasi prompt
    Memang benar transfer gayanya lemah, tetapi hasilnya sedikit lebih baik kalau dua gambar diberikan sekaligus
    Gambar pertama dipakai sebagai target transformasi, dan yang kedua sebagai gambar referensi gaya
    Saya juga memakai pendekatan ini di contoh portofolio saya
    • Mungkin ini batasan eksplisit untuk memblokir gaya Studio Ghibli setelah tren lama “make me Ghibli”
  • Saya menemukan kesalahan lucu pada gambar pancake tengkorak yang kedua
    Stroberi ada di rongga mata kanan (kiri pada gambar), dan blackberry ada di sisi sebaliknya
    Ini tampaknya terjadi karena kebanyakan deskripsi gambar ditulis dari sudut pandang pengamat
    • Saya juga manusia, jadi sepertinya akan melakukan hal yang sama seperti Nano Banana
      Kalau pengguna ingin stroberi diletakkan di mata kiri tengkorak, seharusnya ditulis jelas sebagai “mata kirinya”
    • Sepertinya banyak orang bingung apakah “mata kiri” itu berdasarkan subjek atau berdasarkan kamera
    • Saya juga melewatkan bagian ini, lalu menyoroti masalah yang sama di JSON karakter berikutnya
      Jadi saya menuliskan secara eksplisit di prompt bahwa “kiri dan kanan berdasarkan sudut pandang karakter”, dan tingkat keberhasilannya jadi lebih tinggi
    • Saya juga berpikir sama
      Penulis mengatakan Nano Banana melakukan semua edit dengan akurat, tapi bagian ini masih bisa diperdebatkan
      Menurut saya “mata kanan” pada tengkorak seharusnya ditafsirkan dari sudut pandang tengkorak
  • Kirim permintaan lewat Google AI Studio, lalu untuk menghapus watermark, cukup blokir permintaan “watermark_4” di developer tools browser
    Setelah itu, gambar yang dihasilkan tidak lagi memiliki watermark
  • Saya terkejut membaca kalimat “Nano Banana lemah dalam transfer gaya”
    Saya sedang mengerjakan proyek untuk memvisualisasikan lingkungan tempat tinggal saya sebagai pemandangan abad ke-18
    Saya memodelkannya dengan SketchUp dan Twinmotion, tetapi sulit menghasilkan gambar yang terasa nyata
    Saya sudah mencoba berbagai generator gambar AI, tetapi Nano Banana adalah yang pertama bisa menerapkan gaya baru sambil menjaga konsistensi geometris
    Dengan prompt sederhana seperti “buat gambar ini tampak seperti foto”, saya mendapat hasil yang luar biasa
    Hanya saja, jika kata abad ke-18 dimasukkan langsung, hasilnya malah jadi seperti lukisan, jadi saya menyiasatinya dengan ungkapan seperti “foto jalan bersejarah yang terawat”
    Saya masih tetap melakukan pemodelan manual, tetapi Nano Banana sudah mengubah pendekatan pemodelan saya
    • Namun jika diberi gambar artistik sebagai referensi gaya, Nano Banana tampaknya tidak bisa melakukan generalisasi dengan baik di luar cakupan latihannya
  • Ungkapan “prompt engineered” pada akhirnya berarti mengetik sendiri apa yang ingin dilihat
    • Tapi itu benar-benar sebuah keterampilan (skill)
      Banyak masalah muncul karena orang tidak bisa menyatakan dengan jelas apa yang mereka inginkan
      Prompt engineering adalah keterampilan untuk menangani kompleksitas komunikasi, dan membuat kita sadar akan jarak antara kata dan makna
    • Tergantung modelnya, ada juga kasus ketika prompt tertentu memang tidak dipahami
    • Sekarang kita memahami interaksi dengan LLM sebagai antarmuka bahasa alami
      Ini adalah antarmuka yang ambigu, berbeda dari bahasa pemrograman, dan prompt engineering adalah keterampilan baru untuk menanganinya
    • Pada akhirnya ini adalah proses mengulang dan merevisi prompt untuk mendapatkan hasil yang diinginkan
    • Dulu hal seperti ini disebut “Google Fu
  • Saya mencoba meminta adegan My Neighbor Totoro versi live-action
    Karena ini karakter yang sulit dibuat live-action seperti Sonic, saya penasaran dengan hasilnya, tetapi yang keluar hanya gambar bergaya digital art, bukan fotorealistis
    Meski kata kuncinya diubah, hasilnya tetap sama, dan di ChatGPT saya bahkan tidak bisa mengujinya karena filter hak cipta
    Meski begitu, percobaannya sendiri tetap menarik
  • Nano Banana kadang lambat merespons edit
    Saya memintanya mengubah foto seseorang menjadi gaya clay animation, tetapi hampir tidak ada perubahan
    Namun saat saya menambahkan “buat 10 tahun lebih muda”, tiba-tiba hasilnya berubah seperti boneka tanah liat
    • Itu adalah permintaan transfer gaya, jadi seperti contoh Ghibli, memang cenderung gagal
  • Dari pengalaman saya, nano banana masih sering
    • melakukan modifikasi acak pada gambar
    • mengubah skala, atau
    • membuat perubahan detail yang halus tetapi menyeluruh
      Misalnya, tanpa instruksi apa pun, ia bisa menambahkan perapian atau garasi ke dalam ruangan
      Ini tetap terjadi bahkan saat temperatur disetel ke 0, jadi sulit membuat aplikasi yang andal
      Saya penasaran apakah ada yang punya pengalaman lebih baik
    • Bagian “ALL CAPS” itu menarik
      Huruf besar semua bisa ditokenisasi secara berbeda, sehingga mungkin menjadi input yang sulit dipahami model
    • Saya sedang mengembangkan editor PixLab, dan ini mengikuti perintah huruf besar secara persis apa adanya