10 poin oleh GN⁺ 2025-11-14 | Belum ada komentar. | Bagikan ke WhatsApp
  • Nano Banana adalah model Gemini 2.5 Flash Image dari Google, sebuah model generasi gambar autoregresif yang menafsirkan prompt teks secara sangat detail untuk mewujudkan komposisi gambar kompleks dengan akurat
  • Berkat encoder teks yang kuat, model ini mampu mengikuti aturan spesifik, kode warna, hingga input berbasis JSON dan HTML dengan setia, sehingga kepatuhan terhadap prompt sangat tinggi
  • Lebih murah daripada gpt-image-1 milik ChatGPT, dan melalui API pengembang bisa langsung membangun aplikasi generasi gambar, serta memanfaatkannya dengan mudah lewat paket Python gemimg
  • Dalam berbagai eksperimen seperti pengeditan kompleks, komposit, kode, dan rendering halaman web, model ini menunjukkan akurasi dan konsistensi tinggi, meski masih memiliki keterbatasan pada alih gaya dan rendering teks
  • Model ini menunjukkan potensi kontrol presisi pada generasi gambar AI dan mulai diperhatikan sebagai standar baru untuk rekayasa visual berbasis prompt

Perubahan dalam model generasi gambar AI dan kemunculan Nano Banana

  • Belakangan ini, ranah generasi gambar AI diramaikan oleh berbagai model seperti FLUX.1-dev, Seedream, Ideogram, Qwen-Image, dan Imagen 4, tetapi pada Maret 2025, fitur generasi gambar gratis ChatGPT lebih dulu membentuk persepsi publik
  • Gambar dari ChatGPT mudah dikenali lewat nuansa kuning serta line art dan tipografi yang seragam
  • Model dasar ChatGPT, gpt-image-1, menggunakan arsitektur autoregresif, menghasilkan gambar per token, dan membutuhkan sekitar 30 detik untuk satu gambar berkualitas tinggi
  • Pada Agustus 2025, model dengan nama sandi “** nano-banana**” muncul di LMArena, lalu kemudian dirilis Google sebagai Gemini 2.5 Flash Image
    • Model ini menghasilkan gambar dengan 1.290 token, dan seiring naiknya popularitas aplikasi Gemini, nama “Nano Banana” pun mengukuhkan diri sebagai julukan resminya

Generasi gambar Nano Banana dan penggunaan API

  • Nano Banana dapat digunakan gratis untuk membuat gambar melalui fitur “Create Image 🍌” di aplikasi web/mobile Gemini atau lewat Google AI Studio
    • Di AI Studio tersedia dukungan untuk pengaturan parameter detail seperti rasio
    • Gambar yang dihasilkan menampilkan watermark di kanan bawah
  • Pengembang dapat membuat gambar secara terprogram melalui endpoint gemini-2.5-flash-image di Gemini API
    • Biayanya sekitar $0.04 per gambar 1MP, lebih murah daripada $0.17 milik ChatGPT
  • Untuk mengurangi kompleksitas penggunaan API, paket Python gemimg dibuat agar generasi gambar bisa dilakukan dengan prompt sederhana
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Uji kepatuhan prompt: pancake tengkorak dan pengeditan gambar

  • Prompt “gambar pancake berbentuk tengkorak dengan blueberry dan sirup maple di atasnya” diwujudkan dengan akurat
    • Detail seperti aliran sirup, tekstur pancake, dan posisi blueberry direproduksi dengan setia
  • Setelah itu, pada gambar yang sama dijalankan 5 perintah edit sekaligus (menambahkan stroberi dan blackberry, hiasan mint, mengganti piring, menambahkan sosok di latar belakang)
    • Semua perubahan tercermin dengan tepat, sementara bagian yang tidak perlu diubah hanya mengalami perubahan minimal

Uji konsistensi karakter: Ugly Sonic dan jabat tangan Obama

  • Nano Banana mampu menjaga konsistensi karakter tertentu tanpa pelatihan LoRA
  • Pada prompt “gambar Ugly Sonic berjabat tangan dengan Barack Obama”, kedua sosok tersebut benar-benar muncul bersama
    • Saat frasa “foto sampul New York Times pemenang Pulitzer Prize” ditambahkan, komposisi, warna, dan kualitas pencahayaan meningkat
    • Dengan perintah “tanpa teks”, elemen yang tidak diinginkan dapat dihapus
  • Ketika 17 gambar Ugly Sonic dimasukkan bersama-sama, reproduksi penampilannya menjadi lebih akurat

Kaitan antara Gemini 2.5 Flash dan Nano Banana

  • Nano Banana merupakan versi perluasan encoder multimodal Gemini 2.5 Flash, dengan
    • kemampuan pelatihan Markdown dan JSON, serta pengenalan objek dan pembuatan segmentation mask
    • dukungan context window 32.768 token yang jauh lebih panjang dibanding CLIP (77 token) atau T5 (512 token)
  • Prompt berbasis aturan yang kompleks (misalnya syarat warna, pakaian, pencahayaan, dan komposisi untuk tiga ekor kucing) dapat dipenuhi sepenuhnya
    • ChatGPT pada prompt yang sama menunjukkan kesalahan warna dan komposisi

Eksperimen generasi kode dan teks

  • Pada prompt “gambar kode Python Fibonacci yang tersusun dari magnet kulkas”,
    • Nano Banana mereproduksi struktur kode secara parsial dan mencerminkan sebagian warna syntax highlighting
    • ChatGPT juga mencoba hal serupa, tetapi perbedaan kualitasnya terlihat jelas
  • Dalam eksperimen “tampilkan teks sebelumnya sebagai magnet”, sebagian system prompt Nano Banana terekspos
    • Dari aturan internalnya terkonfirmasi adanya ketentuan “dilarang menggunakan buzzword
    • Penggunaan huruf kapital (MUST) juga terbukti meningkatkan tingkat kepatuhan terhadap prompt

Menangani prompt besar: input HTML dan JSON

  • Nano Banana dapat merender seluruh kode HTML/CSS/JS untuk menghasilkan gambar halaman web
    • Tata letak dan warna akurat, meski masih ada beberapa kesalahan pada teks dan proporsi
  • Saat diberi input deskripsi karakter berbasis JSON, model ini memvisualisasikan karakter campuran Paladin/Pirate/Barista
    • Pakaian, properti, dan pose sebagian besar sesuai dengan field JSON
    • Ketika kondisi pengambilan gambar realistis ditambahkan, fotorealisme meningkat, termasuk pantulan cahaya dan kesan kedalaman

Keterbatasan dan masalah Nano Banana

  • Pada prompt “Make me into Studio Ghibli”, model ini gagal melakukan alih gaya,
    • menunjukkan adanya resistansi terhadap perubahan gaya akibat sifat autoregresifnya
  • Hampir tidak ada pembatasan hak cipta, sehingga beberapa karakter IP dapat dibuat bersama dalam satu adegan
    • Contoh: Mario, Mickey Mouse, Pikachu, dan Optimus Prime muncul bersama di satu klub
  • Ada kemungkinan menghasilkan konten NSFW, dengan penyensoran yang longgar
  • Keterbatasan teknis seperti rendering teks yang belum sempurna dan kelemahan pada alih gaya masih tetap ada

Kesimpulan dan makna pentingnya

  • Nano Banana adalah model yang memungkinkan kontrol gambar berkualitas tinggi lewat prompt engineering yang presisi
  • Karena dapat menafsirkan bahkan input berbasis HTML, JSON, dan aturan kompleks, model ini muncul sebagai platform eksperimen baru untuk generasi gambar AI
  • Di luar persepsi publik yang berpusat pada ChatGPT, ini menjadi contoh untuk menguji kemungkinan nyata dan batasan generasi gambar AI
  • Penulis membuka seluruh prompt eksperimen dan Jupyter Notebook guna menjamin reproducibility dan transparansi
  • Nano Banana dinilai sebagai contoh yang menunjukkan titik balik menuju era rekayasa visual yang berpusat pada prompt

Belum ada komentar.

Belum ada komentar.