1 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Nano Banana 2 Lite yang ditambahkan ke lini Gemini Image milik Google DeepMind adalah model yang ditujukan untuk menjalankan pembuatan dan pengeditan gambar dengan lebih cepat dan lebih murah, dengan fokus menurunkan beban biaya untuk pekerjaan visual yang banyak iterasi
  • Sumbu utamanya adalah latensi rendah dan efisiensi biaya dalam skala besar, serta mampu menghasilkan ribuan gambar dengan biaya lebih rendah dibanding model produksi yang lebih berat
  • Dari sisi kualitas, model ini mempertahankan kontrol dan akurasi khas lini Nano Banana sambil mendukung konsistensi karakter, pengeditan presisi, dan pemanfaatan pengetahuan dunia nyata
  • Contoh seperti Space Lift, Gridscape, Peek-A-Word, dan Anywhere menunjukkan pengalaman pengguna yang dimungkinkan ketika pembuatan gambar menjadi cukup cepat hingga tidak mengganggu alur aplikasi
  • Kesalahan masih bisa terjadi pada wajah kecil, ejaan yang akurat, detail visual, hasil berbasis data, terjemahan dan pelokalan, serta pengeditan dan komposit yang kompleks, sehingga hasil generasi tetap perlu ditinjau

Model Gemini Image yang mengedepankan generasi cepat dan biaya rendah

  • Nano Banana 2 Lite adalah model Gemini Image yang diperkenalkan Google DeepMind dengan tujuan pembuatan dan pengeditan gambar yang cepat serta biaya rendah
  • Pengguna utamanya adalah kreator, bisnis, dan developer, dan model ini disesuaikan untuk alur kerja yang membutuhkan eksplorasi cepat atas berbagai ide visual
  • Google DeepMind memperkenalkan model ini sebagai model Gemini Image mereka yang paling cepat dan efisien sejauh ini, serta menyatakan bahwa model ini menawarkan generasi dan pengeditan berkecepatan tinggi dengan biaya terendah
  • Jalur aksesnya adalah sebagai berikut

Keseimbangan antara kecepatan, biaya, dan kualitas

  • Pengurangan latensi menjadi inti utama untuk mendukung eksplorasi cepat dan pekerjaan berulang
  • Pada generasi skala besar, model ini dapat membuat ribuan gambar dengan biaya yang jauh lebih rendah dibanding model produksi yang lebih berat
  • Dari sisi kualitas, arahnya adalah menghadirkan kontrol dan akurasi yang diharapkan dari Nano Banana dengan kecepatan lebih tinggi
    • Menjaga konsistensi karakter
    • Pengeditan visual yang presisi
    • Pemanfaatan pengetahuan dunia nyata
  • Untuk prompt, semakin rinci Anda menuliskan elemen yang diinginkan seperti karakter, latar belakang, dan suasana keseluruhan, semakin dekat hasilnya dengan gambar yang dimaksud
  • Panduan prompt tersedia di View prompt guide dan Learn how to prompt

Contoh aplikasi yang mengandalkan kecepatan pembuatan gambar

  • Space Lift adalah aplikasi yang langsung menghasilkan berbagai konsep interior, dari Mid-Century Modern hingga Bohemian Chic, ketika pengguna mengunggah foto ruangan
  • Gridscape membangun node informasi dari teks dan gambar yang dibuat oleh Nano Banana 2 Lite dan Gemini 3.1 Flash Lite ketika pengguna memasukkan pertanyaan di kanvas tanpa batas
    • Pengguna dapat menelusuri konsep terkait lebih dalam dengan mengikuti jalur yang bisa diklik
  • Peek-A-Word mengubah teks yang dipilih menjadi materi visual buatan AI, lalu menyediakan definisi singkat dan gambar kontekstual dalam satu ruang
    • Fokusnya adalah menjaga alur belajar tanpa harus berpindah tab
  • Anywhere adalah aplikasi globe 3D interaktif yang dibuat dengan Nano Banana 2 Lite
    • Saat gambar dilampirkan, aplikasi ini membuat seri kartu pos yang dipersonalisasi dengan latar landmark dunia
    • Pengguna dapat memutar globe dan mengklik foto untuk melihat informasi destinasi virtual

Metrik perbandingan dan model card

  • Google DeepMind memperkenalkan Nano Banana 2 Lite sebagai model mereka yang paling efisien sejauh ini, dengan keseimbangan yang baik antara kualitas dan kecepatan
  • Model pembanding mencakup model unggulan Nano Banana 2
  • Area perbandingan mencakup elemen kualitas generasi gambar seperti kepatuhan terhadap prompt, detail ekspresi, dan kontrol
  • Bagian performa menyajikan metrik berikut
    • Image Editing: skor Elo pengeditan gambar dibanding model pesaing berdasarkan lmarena.ai
    • Image Generation: skor Elo generasi gambar dibanding model pesaing berdasarkan lmarena.ai
    • Latency per 1k resolution image: latensi per gambar resolusi 1k berdasarkan data dari artificialanalysis.ai
    • Price per 1k resolution image: harga per gambar resolusi 1k
  • Model card tersedia di View model card

Potensi pemanfaatan menurut para mitra

  • Figma Weave menilai bahwa Nano Banana 2 Lite membantu desainer mengeksplorasi lebih banyak ide dan membuat gambar yang unik di kanvas berbasis node
  • Manus AI sedang menguji pembuatan gambar real-time untuk slide deck dan halaman web dalam alur kerja otonom
    • Mereka menilai kecepatannya cocok untuk iterasi visual cepat oleh agen AI dan penyajian hasil dalam hitungan detik
    • Kualitas gambarnya dinilai mendekati Nano Banana 2 versi penuh
  • Artlist menilai bahwa ketika kecepatan generasi menjadi lebih cepat dari yang dibayangkan, pengguna bisa tetap berada dalam ide mereka tanpa menunggu alat
  • Weekend menyatakan bahwa dalam game TV dengan kontrol suara Wit’s End, instant-ramen sekitar 2.7× lebih cepat daripada Gemini 3.1 Flash Image untuk generasi gambar 1k
    • Ia menangani text-to-image, pengeditan, dan komposisi multi-gambar dalam satu drop-in API
  • Latitude menilai bahwa kecepatan pembuatan gambar penting untuk engine yang membangun dunia saat pemain sedang menjelajah, dan instant-ramen memungkinkan generasi visual yang cukup cepat untuk mengikuti pengalaman bermain

Batasan yang masih perlu ditinjau

  • Gemini dapat membuat berbagai jenis gambar, tetapi beberapa fungsi masih terus ditingkatkan, sehingga gambar hasil generasi tetap perlu diperiksa langsung
  • Dalam fidelitas visual dan teks, masih mungkin ada kesulitan pada wajah kecil, ejaan yang akurat, dan penggambaran detail dalam gambar
  • Dalam akurasi data dan fakta, pengetahuan dunia nyata yang dimilikinya luas tetapi belum lengkap
    • Saat membuat infografik, anotasi diagram, dan representasi data yang kompleks, model bisa salah menafsirkan informasi atau menghasilkan keluaran yang tidak sesuai fakta
    • Output berbasis data perlu diverifikasi
  • Untuk terjemahan dan pelokalan, model dapat menghasilkan dan menerjemahkan teks dalam berbagai bahasa, tetapi mungkin masih kesulitan pada tata bahasa, ejaan, nuansa budaya, dan ungkapan idiomatik
  • Dalam pengeditan kompleks dan blending gambar, hasil yang tidak alami, artefak visual, atau adegan yang terputus bisa muncul pada pengeditan mask, perubahan pencahayaan besar seperti mengubah siang menjadi malam, dan komposisi beberapa gambar
  • Konsistensi karakter merupakan salah satu kekuatannya, tetapi tidak selalu akurat, dan Google DeepMind menyatakan mereka terus memperbaikinya agar lebih stabil

Fitur keamanan dan hal-hal yang perlu diperhatikan saat penggunaan

  • Google DeepMind menggunakan penyaringan ekstensif dan pelabelan data untuk mengurangi konten berbahaya dalam dataset dan menurunkan kemungkinan keluaran berbahaya
  • Untuk keamanan konten, mereka melakukan red teaming dan evaluasi, termasuk terkait keselamatan dan representasi anak
  • Gambar yang dihasilkan mencakup fitur privasi dan keamanan terbaru, dan SynthID menyisipkan watermark digital tak terlihat langsung ke gambar agar gambar buatan AI dapat diidentifikasi
  • Informasi tentang SynthID tersedia di Learn more
  • LLM seperti Gemini 3.1 Flash-Lite Image dapat menghasilkan konten yang tidak akurat atau menyinggung dan tidak mewakili pandangan Google
  • Diperlukan kehati-hatian saat mempercayai, memublikasikan, atau menggunakan konten yang diberikan LLM, dan konten tersebut tidak boleh dijadikan sandaran untuk nasihat profesional seperti medis, hukum, atau keuangan

1 komentar

 
GN⁺ 3 jam lalu
Pendapat di Hacker News
  • Contoh pertama pembuatan interior rumah itu sulit diungkapkan betapa tidak sukanya saya. Sekarang para agen properti memasukkan semua apartemen tua yang tidak laku ke filter AI, jadi sebelum melihat barang mengerikan macam apa yang sebenarnya ingin mereka jual dengan harga tidak masuk akal, kita harus lebih dulu menggeser puluhan gambar “kalau didekorasi ala IKEA, mungkin akan terlihat seperti ini”

    • Menurut saya hal seperti ini harus dianggap sebagai representasi palsu yang ilegal. Penggunaan AI punya terlalu banyak area abu-abu
    • Saya melihatnya hampir seperti penipuan. Di Streeteasy, ada apartemen yang terlihat seolah-olah bisa ‘memuat’ meja kerja, lemari laci, dan ranjang queen sekaligus, padahal jelas model gambar itu hanya mengecilkan furnitur dengan proporsi yang tidak ada di dunia nyata
      Di kamar tidur aslinya, ranjang queen saja hampir tidak muat ;(
    • Saya 100% setuju bahwa menipu soal tampilan asli apartemen itu sendiri seharusnya tidak bisa diterima, baik secara sosial maupun hukum. Namun dalam renovasi kamar mandi saya, model gambar cukup membantu untuk memilih desain
      Terutama berguna ketika sulit membayangkan sendiri bagaimana keseluruhan ruang akan terlihat jika bagian tertentu dipasangi ubin
    • Di NYC tempat saya tinggal, mengunggah gambar yang sudah dipoles seperti itu sudah umum selama lebih dari 10 tahun
      Dulu, hanya saja biaya mempekerjakan orang untuk melakukan pekerjaan seperti itu lebih mahal
      Gambar yang dipoles selalu menampilkan dinding terang yang sama dan furnitur abu-abu ala majalah
      AI hanya membuatnya lebih murah; pada akhirnya memang sudah pasti mengarah ke sini
      Gambar yang dipoles seperti ini memang biasanya diberi watermark kecil yang memberi tahu bahwa gambar tersebut telah diedit
    • Fotografer yang bagus saja sudah memberi efek luar biasa. Saat seorang teman menjual rumahnya, saya terkejut melihat betapa bagusnya rumah itu tampak di foto listing, dan betapa besar kelihatannya padahal saya tahu rumah itu tidak kecil
      Ini bukan masalah baru karena sudah ada sebelum filter AI, tetapi sekarang jauh lebih parah dan biayanya lebih rendah
  • Saya mendapat akses awal untuk menguji model ini. Itu lewat pekerjaan, dan tetap bukan karena Google tiba-tiba menyukai saya secara pribadi lol
    Model ini bekerja seperti yang diiklankan di sini, dan untuk hal-hal seperti rendering teks yang bagus, tampaknya seperti versi hasil distilasi dari Nano Banana 2. Nano Banana 1 jauh lebih lemah dalam hal ini
    Tentu saja, untuk prompt yang rinci, kualitasnya sama sekali bukan setara Nano Banana 2 dasar. Keluhan terbesar saya adalah di NB2 rasio aspek bisa dipaksa secara programatis, sedangkan di NB2L tidak bisa
    Namun harga $0,034 per gambar lebih tinggi dari dugaan saya. Biasanya harga berkorelasi dengan waktu pembuatan, dan ini menghasilkan dalam separuh waktu Nano Banana 1, sementara Nano Banana 1 berharga $0,039 per gambar
    Klaim Google bahwa pipeline NB1 bisa langsung diganti dengan NB2L memang masuk akal
    Kemarin Google mengumumkan bahwa mereka mengizinkan pembuatan gambar gratis di aplikasi Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), tetapi tidak menyebutkan model apa yang dipakai. Saya rasa motivasi utama Nano Banana 2 Lite ada di sini

    • Melalui Vertex, rasio aspek juga bisa diatur secara programatis di NB2 Lite [1]. Saya memperbarui program yang saya pakai untuk membuat gambar GenAI Showdown, mengganti ID model menjadi gemini-3.1-flash-lite-image, dan bisa memakai rasio aspek seperti 16:9 dan 4:3
      [1] - https://cloud.google.com/developers/vertex-ai
    • Saya penasaran pekerjaan seperti apa yang mengharuskan pembuatan gambar otomatis dalam skala besar
  • Lumayan, tetapi berada di atas AI Studio Google yang rusak. Separuh fitur di sana tidak bisa saya pakai karena memerlukan akun Google One
    Saya memakai akun Workspace, jadi tidak memenuhi syarat dan juga tidak bisa beralih. Sebab Google One tidak mendukung domain sendiri
    Jadi kalau ingin memakai alamat email keren dan Banana sekaligus, apakah saya harus menjalankan dua akun dan membayar keduanya? Saya mulai merasa jumlah akun Google berbayar yang benar di sini adalah 0

    • Saya pernah berada dalam situasi serupa. Google benar-benar perlu memperbaiki pengalaman pengguna untuk pemakaian model dan penagihan
      Solusi saya adalah OpenRouter. Di chat untuk pengembangan dan pengujian, saya bisa membuat gambar dengan model Google, dan juga menjalankan prompt yang sama berdampingan dengan model lain. Sangat praktis untuk pembuatan gambar ringan
    • Saya juga hampir dalam posisi yang sama. Untuk pemakaian pribadi, saya membayar One dan Workspace sekaligus, tetapi terasa ambigu harus memakai yang mana untuk fitur seperti ini
      Umumnya saya menjadikan akun pribadi sebagai default karena punya lebih banyak konteks, tetapi itu berarti perlu beberapa langkah tambahan untuk mengambil materi seperti Workspace Drive
      Dan hal seperti Project Genie sama sekali tidak bisa dipakai di Workspace, yang terasa cukup aneh
    • Ini memang agak promosi terang-terangan, tetapi burlap memungkinkan Anda memasukkan kunci Gemini Studio atau OpenAI dan mencoba macam-macam tanpa menyentuh antarmuka web. Karena itu saya membuatnya
      https://www.burlap.app/download
  • Kecepatannya jelas mengesankan. NB2 dasar sekitar 30 detik per gambar, sedangkan ini tampaknya di bawah 5 detik
    Saya membuat aplikasi yang menghasilkan cerita bergambar dengan anak-anak sebagai tokohnya. Saya ingin mempertahankan gaya ilustrasi sekaligus memprioritaskan kemiripan dengan anak-anak tersebut
    Saya menguji berbagai model, tetapi tampaknya tidak ada model lain yang sedekat ini dalam mempertahankan kemiripan sambil tetap distilisasi. Model lain mengubah mereka menjadi karakter generik
    Saya ingin pengguna merasakan momen “aha” secepat mungkin, jadi saya antusias memasukkan model ini ke onboarding aplikasi. Menunggu lebih dari 30 detik tidak ideal
    Namun untuk ilustrasi sebenarnya, saya tetap berencana memakai NB2 dasar. Seperti yang dikatakan orang lain, versi Lite ini masih punya sedikit masalah pada nuansa dan konsistensi

    • Saya pernah mencoba hal serupa, tetapi mendapat error bahwa hal yang berkaitan dengan anak-anak tidak bisa dilakukan. Apakah itu sudah berubah?
  • Tidak memasukkan ChatGPT ke grafik perbandingan. Itu sendiri sudah mengatakan banyak hal

    • Itu memang layak dicatat. Bagi yang belum tahu, ChatGPT Image 2 punya ELO yang sangat tinggi, 1387, lebih dari 100 poin di atas model peringkat kedua yang 1273(https://arena.ai/leaderboard/text-to-image)
      Sebagai gantinya, latensinya menjadi masalah, dan setelan High pada ChatGPT Image 2 lambat, sekitar 2 menit pada 1024x1024
      Bagaimanapun, kalau dimasukkan ke grafik ini, grafiknya akan terdistorsi sampai tidak berguna
      Saya ingin menulis tentang ChatGPT Image 2, tetapi sekarang orang-orang tampaknya tidak tertarik pada pembuatan gambar yang mendetail. Padahal dalam pengujian yang ada, ChatGPT Image 2 mengungguli semuanya
  • Agak mengejutkan bahwa model gambar Grok mengalahkan Nano Banana di hampir semua metrik yang disorot di sini

    • Benarkah begitu? Apa ada yang saya lewatkan? Pertama, sepertinya itu tidak benar, dan versi-versi yang bukan Lite tampaknya secara umum mengalahkan Grok
      Kedua, sejak awal ini adalah model generasi massal berbiaya rendah, bukan model frontier mutakhir, jadi wajar saja kalau benchmark-nya rendah
  • Saya suka Nano Banana Pro. Apakah masih ada alternatif lokal? Saya dengar tentang Qwen Image, Klein, dan Krea yang terbaru, dan penasaran mana yang layak direkomendasikan

    • Krea-2 bagus. Kalau Anda bisa menerima lisensi yang terbatas, kecepatan output, dan prompting JSON, Ideogram 4 mungkin yang paling mendekati model mutakhir
      Kalau melihat GenAI Showdown di profil saya, ada benchmark perbandingan dengan model lokal maupun proprietary
      Faktanya, skornya lebih tinggi daripada Gemini 2.5, alias NB asli, dan itu cukup impresif
    • Krea bagus. Untuk informasi tentang model terbuka mutakhir, lihat r/StableDiffusion
  • Saya cukup tertinggal di ranah pembuatan gambar, jadi hanya kadang memakainya untuk token roleplay, main-main, atau membuat aset sementara pribadi. Menurut standar saya, ini sudah gila
    Bisa membuat gambar dalam sekitar 2 detik. Dulu untuk membuat gambar dengan kualitas yang sama di ChatGPT butuh 30 detik sampai 1 menit
    Saya tidak paham reaksi negatif di sini

    • Meski begitu, detail ChatGPT jauh lebih baik. Ia juga bisa membuat hal seperti komik 6 panel yang kompleks, yang belum bisa dikejar Nano Banana
      Dan cukup banyak reaksi negatif datang dari orang-orang yang tidak suka konsep AI art itu sendiri dan berharapnya gagal
    • Kegunaannya berbeda.
      Orang yang pekerjaannya berpusat pada gambar itu sendiri ingin mengeluarkan biaya lebih besar per gambar
      Sebaliknya, jika gambar hanya bagian dari laporan, hasil sekali pakai, atau masuk ke demo, pendekatan yang murah lebih baik
  • Saya penasaran bagaimana mendapatkan sesuatu seperti prototipe real-time yang ada di bagian “hands on” di halaman ini
    Di gemini.g, saya bisa menambahkan canvas atau memakai pembuatan gambar, tetapi saya tidak yakin harus memasukkan prompt “space lift” di mana agar hasilnya seperti demo

  • Wah, latensinya berkurang drastis. Dengan level ini, beberapa use case baru mungkin terbuka, tetapi halaman web yang ditautkan tidak menjelaskan perbedaan antar-model dengan mudah dipahami
    Namun dari pengalaman pribadi memakai model gambar umum, menurut saya Google adalah yang terbaik untuk alur kerja saya. Tentu saja saya belum mencoba penyedia dari kawasan Timur Jauh
    Saya penasaran apa pendapat orang lain