Nano Banana Pro: model pembuatan gambar berbasis Gemini 3 Pro dari Google DeepMind

(blog.google)

11 poin oleh GN⁺ 2025-11-21 | 1 komentar | Bagikan ke WhatsApp

Nano Banana Pro adalah model pembuatan dan pengeditan gambar terbaru dari Google DeepMind yang dibangun di atas Gemini 3 Pro, dan menyediakan kemampuan untuk mewujudkan ide visual secara presisi
Melalui peningkatan rendering teks dan dukungan multibahasa, model ini dapat langsung menyisipkan teks yang mudah dibaca ke dalam gambar untuk poster, mockup, infografik, dan lainnya
Mendukung pembuatan konten visual berkualitas tinggi dengan fitur seperti menggabungkan hingga 14 gambar, menjaga konsistensi hingga 5 orang, serta dukungan resolusi 2K~4K
Terintegrasi ke berbagai produk Google seperti Google Ads, Workspace, aplikasi Gemini, AI Studio, sehingga dapat dimanfaatkan oleh konsumen, profesional, dan pengembang
Menjamin transparansi gambar buatan AI dengan watermark SynthID, serta menyediakan fitur identifikasi konten AI langsung di aplikasi Gemini

Ikhtisar Nano Banana Pro

Nano Banana Pro adalah model yang memanfaatkan kemampuan penalaran dan pengetahuan dunia Gemini 3 Pro untuk memvisualisasikan informasi visual secara canggih
- Versi peningkatan yang dirilis setelah versi sebelumnya, Nano Banana (Gemini 2.5 Flash Image)
- Mendukung berbagai pekerjaan desain seperti pengembangan ide, visualisasi data, dan mengubah catatan tulisan tangan menjadi diagram

Fitur utama

Pembuatan materi visual yang akurat dan kaya konteks
- Dengan kemampuan penalaran lanjutan Gemini 3, model ini dapat membuat konten berbasis fakta seperti infografik pendidikan dan diagram
- Terhubung dengan informasi real-time dari Google Search untuk memvisualisasikan data langsung seperti cuaca, olahraga, resep
Rendering teks multibahasa
- Menampilkan teks di dalam gambar secara akurat dan mudah dibaca, serta memungkinkan penerjemahan dan pelokalan ke berbagai bahasa
- Cocok untuk membuat poster atau konten merek dengan memanfaatkan beragam font, tekstur, dan gaya huruf
Ekspresi visual berkualitas tinggi
- Dapat membuat gambar komposit yang kompleks dengan menggabungkan hingga 14 gambar dan menjaga konsistensi hingga 5 orang
- Menyediakan kontrol pengeditan detail seperti pengeditan lokal, penyesuaian sudut kamera, koreksi warna, perubahan pencahayaan
- Mendukung resolusi 2K dan 4K serta berbagai rasio layar untuk kebutuhan cetak maupun platform digital

Lingkungan penggunaan

Untuk konsumen dan pelajar
- Nano Banana Pro tersedia di fitur ‘Create images’ dalam aplikasi Gemini
- Pengguna gratis mendapatkan jumlah pembuatan terbatas sebelum beralih ke Nano Banana dasar
- Pelanggan Google AI Plus, Pro, dan Ultra mendapatkan batas pembuatan yang lebih tinggi
Untuk profesional
- Fitur pembuatan gambar di Google Ads telah ditingkatkan ke Nano Banana Pro
- Juga tersedia di Slides dan Vids dalam Google Workspace
Untuk pengembang dan perusahaan
- Dukungan diperluas di Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise, dan lainnya
Untuk kreator
- Melalui alat Flow, pembuat video dan pemasar dapat melakukan kontrol detail per adegan

Identifikasi gambar buatan AI dan transparansi

Semua gambar yang dibuat dengan Nano Banana Pro disisipkan watermark digital SynthID sehingga asalnya dapat diidentifikasi
- Pengguna dapat mengunggah gambar di aplikasi Gemini untuk langsung memeriksa apakah gambar tersebut “dibuat oleh Google AI”
- Gambar milik pengguna gratis dan Pro juga ditambahkan watermark yang terlihat (Gemini sparkle)
- Pelanggan Ultra dan alat pengembang AI Studio mendapatkan kanvas bersih tanpa watermark
SynthID direncanakan akan diperluas ke konten audio dan video di masa depan

Materi terkait

Build with Nano Banana Pro: pengenalan model Gemini 3 Pro Image untuk pengembang
Prompting Tips for Nano Banana Pro: panduan menulis prompt yang efektif
AI Image Verification in Gemini App: penjelasan fitur verifikasi gambar berbasis SynthID

Tidak ada informasi tambahan dalam naskah asli

1 komentar

GN⁺ 2025-11-21

Opini Hacker News

Minggu ini Google terasa bergerak seperti Godzilla
Saya baru pertama kali mencoba menghubungkan kartu ke AI Studio, dan proses pembayarannya terlalu rumit
Bahkan setelah semua pengaturan selesai, error “permission denied” terus muncul
Kalau harus seribet ini hanya untuk membayar, sebaik apa pun modelnya jadi tidak ada artinya
- Maaf atas pengalaman yang merepotkan ini
  Tim sedang bekerja keras untuk memperbaikinya agar lebih mudah diakses
  Untuk mengurangi hambatan terkait pembayaran, mereka sedang menyiapkan sistem pembayaran bawaan AI Studio, dan katanya akan dirilis global pada Januari
- API Google secara umum punya hambatan masuk yang terlalu tinggi
  Layanan lain cukup dengan satu API key, tapi di Google harus buat akun → buat aplikasi → aktifkan layanan → buat aplikasi OAuth → unduh JSON
- Kalau hanya ingin memakai API, saya merekomendasikan Nano-Banana-Pro dari Fal.ai
  Proses pendaftarannya jauh lebih sederhana dan menyediakan berbagai model AI
- Saya juga memakai paket berbayar Claude dan OpenAI, tapi Gemini begitu sulit untuk dibayar sampai rasanya susah bahkan untuk mencoba
  Membuat project GCP hanya untuk tes sederhana terasa berlebihan
- Tingkat ketidaknyamanannya sampai-sampai ada peluang bisnis hanya dengan membuat frontend developer yang lebih baik untuk produk AI Google
Saya menguji ulang semua prompt terkait editing dengan Nano Banana Pro
Lulus tes SHRDLU, M&M Van Halen, dan Scorpio Street
Hasilnya bisa dilihat di sini
NB Pro menunjukkan performa yang jelas lebih baik daripada NB asli
- Pada tes edit jerapah, hasil NB Pro terlihat lebih baik daripada Seedream, tapi penilaiannya justru kebalik
  Sepertinya tesnya sendiri kurang tepat
- NB Pro seharusnya lolos tes jerapah
  Hasilnya memang tidak sempurna, tapi tetap melakukan sesuai permintaan
- Tes Menara Pisa menarik
  Prompt yang membutuhkan pengetahuan yang jelas bisa dilalui, tapi sekadar meluruskan objek yang miring masih tetap sulit
- Akan lebih mudah membandingkan jika gambar asli selalu ditampilkan bersama di setiap tes
  Menampilkan asli dan hasil secara berdampingan tampaknya lebih intuitif daripada slider
- Situsnya sangat berguna. Saya penasaran apakah ada rencana menjalankan benchmark teks-ke-gambar juga dengan NB Pro
Selama beberapa bulan saya mengerjakan analisis prompt engineering Nano Banana, lalu Google merilis versi baru
Model baru ini langsung bekerja di paket gemimg
Namun harganya mahal sehingga sulit dijadikan model default
Menurut dokumentasinya, model ini menghasilkan hingga dua gambar perantara (tahap Thinking)
Ini mungkin penyebab kenaikan biaya
- Contoh prompt “stroberi di mata kiri, blackberry di mata kanan” menarik
  Model mengenali kiri dan kanan dari sudut pandang pengamat sehingga menempatkannya secara keliru
  Kesalahan instruksi relatif seperti ini juga umum terjadi di bidang medis
  Tautan contoh terkait
- Panduan Nano Banana dari Max masih tetap berlaku
  Sebagian besar prompt juga bekerja baik di NB Pro
  Tautan panduan
  Saya juga membagikan hasil eksperimen saya
- Biaya per gambar input adalah $0.0011, bukan $0.06
- gemimg versi 0.3.2 telah dirilis, dan sebagian besar error gambar di NB Pro sudah diperbaiki
  “Transformasi gaya Studio Ghibli” jauh lebih akurat dibanding ChatGPT
  Namun gambar yang terlalu realistis kadang jatuh ke uncanny valley
- Wrapper gemimg tetap berguna
  Ini kembali mengingatkan saya betapa pentingnya desain alat yang adaptif untuk merespons perubahan teknologi
Kemampuan menghasilkan seluruh infografik dengan prompt singkat sangat mengagumkan
Saya meminta “cara kerja project Datasette” dan mendapatkan hasil dengan kualitas tinggi
Tautan hasil
- Fitur ini bisa mengubah secara revolusioner fitur pembuatan selebaran acara di SaaS
  Saat ini teks dirender terpisah, tapi sekarang tampaknya bisa diproses sekaligus
- Namun gagal menemukan C tengah pada keyboard piano
  Lihat gambar hasil
- Bahkan untuk project dengan informasi yang sangat minim, yaitu player.html, model ini tetap membuat infografik dengan baik
  Tautan GitHub
  Bahkan otomatis mengubahnya ke format persegi untuk Instagram
- Saya penasaran apakah infografik Datasette itu sesuai dengan cara kerjanya yang sebenarnya
Gambar AI memang tidak lagi membuat artefak yang mencolok, tapi masih tetap terasa seperti AI karena gayanya
Khususnya infografik masih bisa dibedakan dari buatan manusia
Ini tampak seperti hasil dari dataset tertentu yang terlalu terwakili
- Manusia sangat sensitif terhadap perbedaan visual yang halus
  Model yang dilatih pada nilai rata-rata akan menghasilkan “ruang gambar yang rata-rata”
  Dari contoh terkait terlihat bahwa hasil realistis juga dimungkinkan lewat fine-tuning
- Ini bukan semata masalah data
  Beberapa model sengaja menghapus gaya sehingga memberi kesan artifisial
  Model terbuka bisa disesuaikan secara detail dengan LoRA, tapi model tertutup sulit, dan itu masalahnya
- Sebagian besar model belajar dari data seluruh web dan menghasilkan hasil rata-rata yang dapat diprediksi
  Jika ingin gambar yang orisinal, prompt-nya sendiri harus lebih kreatif
- Masih ada error halus pada tekstur, proporsi, pencahayaan, dan sebagainya
  Karena itu, fitur editing gambar dianggap sebagai tantangan berikutnya
- Model yang di-fine-tune dengan umpan balik manusia mempelajari “selera rata-rata” sehingga kehilangan kepribadian
  Model awal kualitasnya memang lebih rendah, tapi menghasilkan sesuatu yang lebih menarik
SynthID adalah langkah awal yang baik, tapi punya keterbatasan karena tidak bisa membedakan konten AI tanpa watermark
Perusahaan besar perlu mengadopsi pengenal yang terstandarisasi
- Menurut saya berbahaya jika pemerintah mewajibkan watermark
  Kalau Photoshop dulu terkena regulasi semacam itu, kreativitas akan sangat dibatasi
- Apple tampaknya suatu hari akan meluncurkan fitur seperti “Real Photos”
  Semacam bukti bahwa foto benar-benar diambil dengan kamera asli, lalu diberi tanda verifikasi di iMessage
- Alasan perusahaan menerapkan watermark adalah pengelolaan pelatihan ulang data
  Pada akhirnya, model komersial utama kemungkinan akan mewajibkan watermark secara default
- Jika pengenal standar muncul, akan ada juga software untuk menghapusnya
  Ini akan menjadi permainan kucing dan tikus tanpa akhir
- Ada proyek C2PA yang memang mencoba menyelesaikan masalah ini
Animator 2D masih boleh tenang untuk sekarang
Saat saya mencoba membuat sprite sheet, model hanya mengulang frame secara sederhana dan tidak bisa membuat gerakan antara (interpolation) yang natural
Kumpulan materi resmi
Developer Blog
Halaman DeepMind
PDF Model Card
Pengenalan SynthID
Model ini adalah model pembuat gambar pertama yang lolos tes piano saya
Pola tuts hitam per oktaf diulang dengan benar
Model-model sebelumnya selalu salah menggambarkan susunan tuts
- Tapi di luar standar 88 tuts, error masih banyak
  Permintaan untuk mewarnai nada tertentu juga diproses secara acak
  Piano adalah objek yang sangat terstandarisasi dan seharusnya punya banyak data pelatihan, tapi pemahamannya tetap kurang
- Mempertahankan pola berulang dalam jangka panjang adalah hal yang sulit
  Fakta bahwa model ini menjaga konsistensi di seluruh 88 tuts cukup mengesankan
Sekarang model bisa merender teks secara natural di dalam gambar
Fitur yang dulu mustahil kini terasa seperti hal yang mendasar
- Saya juga setuju. Namun area yang tumpang tindih antara visual dan kode, seperti pembuatan ikon, masih lemah
  Desain detail seperti menata kurva, jarak, dan keseimbangan masih lebih baik dikerjakan langsung oleh manusia

Nano Banana Pro: model pembuatan gambar berbasis Gemini 3 Pro dari Google DeepMind

Ikhtisar Nano Banana Pro

Fitur utama

Lingkungan penggunaan

Identifikasi gambar buatan AI dan transparansi

Materi terkait

Bacaan terkait

1 komentar

Opini Hacker News