11 poin oleh GN⁺ 2025-11-21 | 1 komentar | Bagikan ke WhatsApp
  • Nano Banana Pro adalah model pembuatan dan pengeditan gambar terbaru dari Google DeepMind yang dibangun di atas Gemini 3 Pro, dan menyediakan kemampuan untuk mewujudkan ide visual secara presisi
  • Melalui peningkatan rendering teks dan dukungan multibahasa, model ini dapat langsung menyisipkan teks yang mudah dibaca ke dalam gambar untuk poster, mockup, infografik, dan lainnya
  • Mendukung pembuatan konten visual berkualitas tinggi dengan fitur seperti menggabungkan hingga 14 gambar, menjaga konsistensi hingga 5 orang, serta dukungan resolusi 2K~4K
  • Terintegrasi ke berbagai produk Google seperti Google Ads, Workspace, aplikasi Gemini, AI Studio, sehingga dapat dimanfaatkan oleh konsumen, profesional, dan pengembang
  • Menjamin transparansi gambar buatan AI dengan watermark SynthID, serta menyediakan fitur identifikasi konten AI langsung di aplikasi Gemini

Ikhtisar Nano Banana Pro

  • Nano Banana Pro adalah model yang memanfaatkan kemampuan penalaran dan pengetahuan dunia Gemini 3 Pro untuk memvisualisasikan informasi visual secara canggih
    • Versi peningkatan yang dirilis setelah versi sebelumnya, Nano Banana (Gemini 2.5 Flash Image)
    • Mendukung berbagai pekerjaan desain seperti pengembangan ide, visualisasi data, dan mengubah catatan tulisan tangan menjadi diagram

Fitur utama

  • Pembuatan materi visual yang akurat dan kaya konteks
    • Dengan kemampuan penalaran lanjutan Gemini 3, model ini dapat membuat konten berbasis fakta seperti infografik pendidikan dan diagram
    • Terhubung dengan informasi real-time dari Google Search untuk memvisualisasikan data langsung seperti cuaca, olahraga, resep
  • Rendering teks multibahasa
    • Menampilkan teks di dalam gambar secara akurat dan mudah dibaca, serta memungkinkan penerjemahan dan pelokalan ke berbagai bahasa
    • Cocok untuk membuat poster atau konten merek dengan memanfaatkan beragam font, tekstur, dan gaya huruf
  • Ekspresi visual berkualitas tinggi
    • Dapat membuat gambar komposit yang kompleks dengan menggabungkan hingga 14 gambar dan menjaga konsistensi hingga 5 orang
    • Menyediakan kontrol pengeditan detail seperti pengeditan lokal, penyesuaian sudut kamera, koreksi warna, perubahan pencahayaan
    • Mendukung resolusi 2K dan 4K serta berbagai rasio layar untuk kebutuhan cetak maupun platform digital

Lingkungan penggunaan

  • Untuk konsumen dan pelajar
    • Nano Banana Pro tersedia di fitur ‘Create images’ dalam aplikasi Gemini
    • Pengguna gratis mendapatkan jumlah pembuatan terbatas sebelum beralih ke Nano Banana dasar
    • Pelanggan Google AI Plus, Pro, dan Ultra mendapatkan batas pembuatan yang lebih tinggi
  • Untuk profesional
    • Fitur pembuatan gambar di Google Ads telah ditingkatkan ke Nano Banana Pro
    • Juga tersedia di Slides dan Vids dalam Google Workspace
  • Untuk pengembang dan perusahaan
    • Dukungan diperluas di Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise, dan lainnya
  • Untuk kreator
    • Melalui alat Flow, pembuat video dan pemasar dapat melakukan kontrol detail per adegan

Identifikasi gambar buatan AI dan transparansi

  • Semua gambar yang dibuat dengan Nano Banana Pro disisipkan watermark digital SynthID sehingga asalnya dapat diidentifikasi
    • Pengguna dapat mengunggah gambar di aplikasi Gemini untuk langsung memeriksa apakah gambar tersebut “dibuat oleh Google AI”
    • Gambar milik pengguna gratis dan Pro juga ditambahkan watermark yang terlihat (Gemini sparkle)
    • Pelanggan Ultra dan alat pengembang AI Studio mendapatkan kanvas bersih tanpa watermark
  • SynthID direncanakan akan diperluas ke konten audio dan video di masa depan

Materi terkait

  • Build with Nano Banana Pro: pengenalan model Gemini 3 Pro Image untuk pengembang
  • Prompting Tips for Nano Banana Pro: panduan menulis prompt yang efektif
  • AI Image Verification in Gemini App: penjelasan fitur verifikasi gambar berbasis SynthID

Tidak ada informasi tambahan dalam naskah asli

1 komentar

 
GN⁺ 2025-11-21
Opini Hacker News
  • Minggu ini Google terasa bergerak seperti Godzilla
    Saya baru pertama kali mencoba menghubungkan kartu ke AI Studio, dan proses pembayarannya terlalu rumit
    Bahkan setelah semua pengaturan selesai, error “permission denied” terus muncul
    Kalau harus seribet ini hanya untuk membayar, sebaik apa pun modelnya jadi tidak ada artinya

    • Maaf atas pengalaman yang merepotkan ini
      Tim sedang bekerja keras untuk memperbaikinya agar lebih mudah diakses
      Untuk mengurangi hambatan terkait pembayaran, mereka sedang menyiapkan sistem pembayaran bawaan AI Studio, dan katanya akan dirilis global pada Januari
    • API Google secara umum punya hambatan masuk yang terlalu tinggi
      Layanan lain cukup dengan satu API key, tapi di Google harus buat akun → buat aplikasi → aktifkan layanan → buat aplikasi OAuth → unduh JSON
    • Kalau hanya ingin memakai API, saya merekomendasikan Nano-Banana-Pro dari Fal.ai
      Proses pendaftarannya jauh lebih sederhana dan menyediakan berbagai model AI
    • Saya juga memakai paket berbayar Claude dan OpenAI, tapi Gemini begitu sulit untuk dibayar sampai rasanya susah bahkan untuk mencoba
      Membuat project GCP hanya untuk tes sederhana terasa berlebihan
    • Tingkat ketidaknyamanannya sampai-sampai ada peluang bisnis hanya dengan membuat frontend developer yang lebih baik untuk produk AI Google
  • Saya menguji ulang semua prompt terkait editing dengan Nano Banana Pro
    Lulus tes SHRDLU, M&M Van Halen, dan Scorpio Street
    Hasilnya bisa dilihat di sini
    NB Pro menunjukkan performa yang jelas lebih baik daripada NB asli

    • Pada tes edit jerapah, hasil NB Pro terlihat lebih baik daripada Seedream, tapi penilaiannya justru kebalik
      Sepertinya tesnya sendiri kurang tepat
    • NB Pro seharusnya lolos tes jerapah
      Hasilnya memang tidak sempurna, tapi tetap melakukan sesuai permintaan
    • Tes Menara Pisa menarik
      Prompt yang membutuhkan pengetahuan yang jelas bisa dilalui, tapi sekadar meluruskan objek yang miring masih tetap sulit
    • Akan lebih mudah membandingkan jika gambar asli selalu ditampilkan bersama di setiap tes
      Menampilkan asli dan hasil secara berdampingan tampaknya lebih intuitif daripada slider
    • Situsnya sangat berguna. Saya penasaran apakah ada rencana menjalankan benchmark teks-ke-gambar juga dengan NB Pro
  • Selama beberapa bulan saya mengerjakan analisis prompt engineering Nano Banana, lalu Google merilis versi baru
    Model baru ini langsung bekerja di paket gemimg
    Namun harganya mahal sehingga sulit dijadikan model default
    Menurut dokumentasinya, model ini menghasilkan hingga dua gambar perantara (tahap Thinking)
    Ini mungkin penyebab kenaikan biaya

    • Contoh prompt “stroberi di mata kiri, blackberry di mata kanan” menarik
      Model mengenali kiri dan kanan dari sudut pandang pengamat sehingga menempatkannya secara keliru
      Kesalahan instruksi relatif seperti ini juga umum terjadi di bidang medis
      Tautan contoh terkait
    • Panduan Nano Banana dari Max masih tetap berlaku
      Sebagian besar prompt juga bekerja baik di NB Pro
      Tautan panduan
      Saya juga membagikan hasil eksperimen saya
    • Biaya per gambar input adalah $0.0011, bukan $0.06
    • gemimg versi 0.3.2 telah dirilis, dan sebagian besar error gambar di NB Pro sudah diperbaiki
      “Transformasi gaya Studio Ghibli” jauh lebih akurat dibanding ChatGPT
      Namun gambar yang terlalu realistis kadang jatuh ke uncanny valley
    • Wrapper gemimg tetap berguna
      Ini kembali mengingatkan saya betapa pentingnya desain alat yang adaptif untuk merespons perubahan teknologi
  • Kemampuan menghasilkan seluruh infografik dengan prompt singkat sangat mengagumkan
    Saya meminta “cara kerja project Datasette” dan mendapatkan hasil dengan kualitas tinggi
    Tautan hasil

    • Fitur ini bisa mengubah secara revolusioner fitur pembuatan selebaran acara di SaaS
      Saat ini teks dirender terpisah, tapi sekarang tampaknya bisa diproses sekaligus
    • Namun gagal menemukan C tengah pada keyboard piano
      Lihat gambar hasil
    • Bahkan untuk project dengan informasi yang sangat minim, yaitu player.html, model ini tetap membuat infografik dengan baik
      Tautan GitHub
      Bahkan otomatis mengubahnya ke format persegi untuk Instagram
    • Saya penasaran apakah infografik Datasette itu sesuai dengan cara kerjanya yang sebenarnya
  • Gambar AI memang tidak lagi membuat artefak yang mencolok, tapi masih tetap terasa seperti AI karena gayanya
    Khususnya infografik masih bisa dibedakan dari buatan manusia
    Ini tampak seperti hasil dari dataset tertentu yang terlalu terwakili

    • Manusia sangat sensitif terhadap perbedaan visual yang halus
      Model yang dilatih pada nilai rata-rata akan menghasilkan “ruang gambar yang rata-rata”
      Dari contoh terkait terlihat bahwa hasil realistis juga dimungkinkan lewat fine-tuning
    • Ini bukan semata masalah data
      Beberapa model sengaja menghapus gaya sehingga memberi kesan artifisial
      Model terbuka bisa disesuaikan secara detail dengan LoRA, tapi model tertutup sulit, dan itu masalahnya
    • Sebagian besar model belajar dari data seluruh web dan menghasilkan hasil rata-rata yang dapat diprediksi
      Jika ingin gambar yang orisinal, prompt-nya sendiri harus lebih kreatif
    • Masih ada error halus pada tekstur, proporsi, pencahayaan, dan sebagainya
      Karena itu, fitur editing gambar dianggap sebagai tantangan berikutnya
    • Model yang di-fine-tune dengan umpan balik manusia mempelajari “selera rata-rata” sehingga kehilangan kepribadian
      Model awal kualitasnya memang lebih rendah, tapi menghasilkan sesuatu yang lebih menarik
  • SynthID adalah langkah awal yang baik, tapi punya keterbatasan karena tidak bisa membedakan konten AI tanpa watermark
    Perusahaan besar perlu mengadopsi pengenal yang terstandarisasi

    • Menurut saya berbahaya jika pemerintah mewajibkan watermark
      Kalau Photoshop dulu terkena regulasi semacam itu, kreativitas akan sangat dibatasi
    • Apple tampaknya suatu hari akan meluncurkan fitur seperti “Real Photos
      Semacam bukti bahwa foto benar-benar diambil dengan kamera asli, lalu diberi tanda verifikasi di iMessage
    • Alasan perusahaan menerapkan watermark adalah pengelolaan pelatihan ulang data
      Pada akhirnya, model komersial utama kemungkinan akan mewajibkan watermark secara default
    • Jika pengenal standar muncul, akan ada juga software untuk menghapusnya
      Ini akan menjadi permainan kucing dan tikus tanpa akhir
    • Ada proyek C2PA yang memang mencoba menyelesaikan masalah ini
  • Animator 2D masih boleh tenang untuk sekarang
    Saat saya mencoba membuat sprite sheet, model hanya mengulang frame secara sederhana dan tidak bisa membuat gerakan antara (interpolation) yang natural

  • Kumpulan materi resmi
    Developer Blog
    Halaman DeepMind
    PDF Model Card
    Pengenalan SynthID

  • Model ini adalah model pembuat gambar pertama yang lolos tes piano saya
    Pola tuts hitam per oktaf diulang dengan benar
    Model-model sebelumnya selalu salah menggambarkan susunan tuts

    • Tapi di luar standar 88 tuts, error masih banyak
      Permintaan untuk mewarnai nada tertentu juga diproses secara acak
      Piano adalah objek yang sangat terstandarisasi dan seharusnya punya banyak data pelatihan, tapi pemahamannya tetap kurang
    • Mempertahankan pola berulang dalam jangka panjang adalah hal yang sulit
      Fakta bahwa model ini menjaga konsistensi di seluruh 88 tuts cukup mengesankan
  • Sekarang model bisa merender teks secara natural di dalam gambar
    Fitur yang dulu mustahil kini terasa seperti hal yang mendasar

    • Saya juga setuju. Namun area yang tumpang tindih antara visual dan kode, seperti pembuatan ikon, masih lemah
      Desain detail seperti menata kurva, jarak, dan keseimbangan masih lebih baik dikerjakan langsung oleh manusia