Nano Banana 2 Lite
(deepmind.google)- Nano Banana 2 Lite yang ditambahkan ke lini Gemini Image milik Google DeepMind adalah model yang ditujukan untuk menjalankan pembuatan dan pengeditan gambar dengan lebih cepat dan lebih murah, dengan fokus menurunkan beban biaya untuk pekerjaan visual yang banyak iterasi
- Sumbu utamanya adalah latensi rendah dan efisiensi biaya dalam skala besar, serta mampu menghasilkan ribuan gambar dengan biaya lebih rendah dibanding model produksi yang lebih berat
- Dari sisi kualitas, model ini mempertahankan kontrol dan akurasi khas lini Nano Banana sambil mendukung konsistensi karakter, pengeditan presisi, dan pemanfaatan pengetahuan dunia nyata
- Contoh seperti Space Lift, Gridscape, Peek-A-Word, dan Anywhere menunjukkan pengalaman pengguna yang dimungkinkan ketika pembuatan gambar menjadi cukup cepat hingga tidak mengganggu alur aplikasi
- Kesalahan masih bisa terjadi pada wajah kecil, ejaan yang akurat, detail visual, hasil berbasis data, terjemahan dan pelokalan, serta pengeditan dan komposit yang kompleks, sehingga hasil generasi tetap perlu ditinjau
Model Gemini Image yang mengedepankan generasi cepat dan biaya rendah
- Nano Banana 2 Lite adalah model Gemini Image yang diperkenalkan Google DeepMind dengan tujuan pembuatan dan pengeditan gambar yang cepat serta biaya rendah
- Pengguna utamanya adalah kreator, bisnis, dan developer, dan model ini disesuaikan untuk alur kerja yang membutuhkan eksplorasi cepat atas berbagai ide visual
- Google DeepMind memperkenalkan model ini sebagai model Gemini Image mereka yang paling cepat dan efisien sejauh ini, serta menyatakan bahwa model ini menawarkan generasi dan pengeditan berkecepatan tinggi dengan biaya terendah
- Jalur aksesnya adalah sebagai berikut
- Google AI Studio
- Flash-Lite mode di aplikasi Gemini
- Gemini API
- Gemini Enterprise Agent Platform
Keseimbangan antara kecepatan, biaya, dan kualitas
- Pengurangan latensi menjadi inti utama untuk mendukung eksplorasi cepat dan pekerjaan berulang
- Pada generasi skala besar, model ini dapat membuat ribuan gambar dengan biaya yang jauh lebih rendah dibanding model produksi yang lebih berat
- Dari sisi kualitas, arahnya adalah menghadirkan kontrol dan akurasi yang diharapkan dari Nano Banana dengan kecepatan lebih tinggi
- Menjaga konsistensi karakter
- Pengeditan visual yang presisi
- Pemanfaatan pengetahuan dunia nyata
- Untuk prompt, semakin rinci Anda menuliskan elemen yang diinginkan seperti karakter, latar belakang, dan suasana keseluruhan, semakin dekat hasilnya dengan gambar yang dimaksud
- Panduan prompt tersedia di View prompt guide dan Learn how to prompt
Contoh aplikasi yang mengandalkan kecepatan pembuatan gambar
- Space Lift adalah aplikasi yang langsung menghasilkan berbagai konsep interior, dari Mid-Century Modern hingga Bohemian Chic, ketika pengguna mengunggah foto ruangan
- Gridscape membangun node informasi dari teks dan gambar yang dibuat oleh Nano Banana 2 Lite dan Gemini 3.1 Flash Lite ketika pengguna memasukkan pertanyaan di kanvas tanpa batas
- Pengguna dapat menelusuri konsep terkait lebih dalam dengan mengikuti jalur yang bisa diklik
- Peek-A-Word mengubah teks yang dipilih menjadi materi visual buatan AI, lalu menyediakan definisi singkat dan gambar kontekstual dalam satu ruang
- Fokusnya adalah menjaga alur belajar tanpa harus berpindah tab
- Anywhere adalah aplikasi globe 3D interaktif yang dibuat dengan Nano Banana 2 Lite
- Saat gambar dilampirkan, aplikasi ini membuat seri kartu pos yang dipersonalisasi dengan latar landmark dunia
- Pengguna dapat memutar globe dan mengklik foto untuk melihat informasi destinasi virtual
Metrik perbandingan dan model card
- Google DeepMind memperkenalkan Nano Banana 2 Lite sebagai model mereka yang paling efisien sejauh ini, dengan keseimbangan yang baik antara kualitas dan kecepatan
- Model pembanding mencakup model unggulan Nano Banana 2
- Area perbandingan mencakup elemen kualitas generasi gambar seperti kepatuhan terhadap prompt, detail ekspresi, dan kontrol
- Bagian performa menyajikan metrik berikut
- Image Editing: skor Elo pengeditan gambar dibanding model pesaing berdasarkan lmarena.ai
- Image Generation: skor Elo generasi gambar dibanding model pesaing berdasarkan lmarena.ai
- Latency per 1k resolution image: latensi per gambar resolusi 1k berdasarkan data dari artificialanalysis.ai
- Price per 1k resolution image: harga per gambar resolusi 1k
- Model card tersedia di View model card
Potensi pemanfaatan menurut para mitra
- Figma Weave menilai bahwa Nano Banana 2 Lite membantu desainer mengeksplorasi lebih banyak ide dan membuat gambar yang unik di kanvas berbasis node
- Manus AI sedang menguji pembuatan gambar real-time untuk slide deck dan halaman web dalam alur kerja otonom
- Mereka menilai kecepatannya cocok untuk iterasi visual cepat oleh agen AI dan penyajian hasil dalam hitungan detik
- Kualitas gambarnya dinilai mendekati Nano Banana 2 versi penuh
- Artlist menilai bahwa ketika kecepatan generasi menjadi lebih cepat dari yang dibayangkan, pengguna bisa tetap berada dalam ide mereka tanpa menunggu alat
- Weekend menyatakan bahwa dalam game TV dengan kontrol suara Wit’s End, instant-ramen sekitar 2.7× lebih cepat daripada Gemini 3.1 Flash Image untuk generasi gambar 1k
- Ia menangani text-to-image, pengeditan, dan komposisi multi-gambar dalam satu drop-in API
- Latitude menilai bahwa kecepatan pembuatan gambar penting untuk engine yang membangun dunia saat pemain sedang menjelajah, dan instant-ramen memungkinkan generasi visual yang cukup cepat untuk mengikuti pengalaman bermain
Batasan yang masih perlu ditinjau
- Gemini dapat membuat berbagai jenis gambar, tetapi beberapa fungsi masih terus ditingkatkan, sehingga gambar hasil generasi tetap perlu diperiksa langsung
- Dalam fidelitas visual dan teks, masih mungkin ada kesulitan pada wajah kecil, ejaan yang akurat, dan penggambaran detail dalam gambar
- Dalam akurasi data dan fakta, pengetahuan dunia nyata yang dimilikinya luas tetapi belum lengkap
- Saat membuat infografik, anotasi diagram, dan representasi data yang kompleks, model bisa salah menafsirkan informasi atau menghasilkan keluaran yang tidak sesuai fakta
- Output berbasis data perlu diverifikasi
- Untuk terjemahan dan pelokalan, model dapat menghasilkan dan menerjemahkan teks dalam berbagai bahasa, tetapi mungkin masih kesulitan pada tata bahasa, ejaan, nuansa budaya, dan ungkapan idiomatik
- Dalam pengeditan kompleks dan blending gambar, hasil yang tidak alami, artefak visual, atau adegan yang terputus bisa muncul pada pengeditan mask, perubahan pencahayaan besar seperti mengubah siang menjadi malam, dan komposisi beberapa gambar
- Konsistensi karakter merupakan salah satu kekuatannya, tetapi tidak selalu akurat, dan Google DeepMind menyatakan mereka terus memperbaikinya agar lebih stabil
Fitur keamanan dan hal-hal yang perlu diperhatikan saat penggunaan
- Google DeepMind menggunakan penyaringan ekstensif dan pelabelan data untuk mengurangi konten berbahaya dalam dataset dan menurunkan kemungkinan keluaran berbahaya
- Untuk keamanan konten, mereka melakukan red teaming dan evaluasi, termasuk terkait keselamatan dan representasi anak
- Gambar yang dihasilkan mencakup fitur privasi dan keamanan terbaru, dan SynthID menyisipkan watermark digital tak terlihat langsung ke gambar agar gambar buatan AI dapat diidentifikasi
- Informasi tentang SynthID tersedia di Learn more
- LLM seperti Gemini 3.1 Flash-Lite Image dapat menghasilkan konten yang tidak akurat atau menyinggung dan tidak mewakili pandangan Google
- Diperlukan kehati-hatian saat mempercayai, memublikasikan, atau menggunakan konten yang diberikan LLM, dan konten tersebut tidak boleh dijadikan sandaran untuk nasihat profesional seperti medis, hukum, atau keuangan
1 komentar
Pendapat di Hacker News
Contoh pertama pembuatan interior rumah itu sulit diungkapkan betapa tidak sukanya saya. Sekarang para agen properti memasukkan semua apartemen tua yang tidak laku ke filter AI, jadi sebelum melihat barang mengerikan macam apa yang sebenarnya ingin mereka jual dengan harga tidak masuk akal, kita harus lebih dulu menggeser puluhan gambar “kalau didekorasi ala IKEA, mungkin akan terlihat seperti ini”
Di kamar tidur aslinya, ranjang queen saja hampir tidak muat ;(
Terutama berguna ketika sulit membayangkan sendiri bagaimana keseluruhan ruang akan terlihat jika bagian tertentu dipasangi ubin
Dulu, hanya saja biaya mempekerjakan orang untuk melakukan pekerjaan seperti itu lebih mahal
Gambar yang dipoles selalu menampilkan dinding terang yang sama dan furnitur abu-abu ala majalah
AI hanya membuatnya lebih murah; pada akhirnya memang sudah pasti mengarah ke sini
Gambar yang dipoles seperti ini memang biasanya diberi watermark kecil yang memberi tahu bahwa gambar tersebut telah diedit
Ini bukan masalah baru karena sudah ada sebelum filter AI, tetapi sekarang jauh lebih parah dan biayanya lebih rendah
Saya mendapat akses awal untuk menguji model ini. Itu lewat pekerjaan, dan tetap bukan karena Google tiba-tiba menyukai saya secara pribadi lol
Model ini bekerja seperti yang diiklankan di sini, dan untuk hal-hal seperti rendering teks yang bagus, tampaknya seperti versi hasil distilasi dari Nano Banana 2. Nano Banana 1 jauh lebih lemah dalam hal ini
Tentu saja, untuk prompt yang rinci, kualitasnya sama sekali bukan setara Nano Banana 2 dasar. Keluhan terbesar saya adalah di NB2 rasio aspek bisa dipaksa secara programatis, sedangkan di NB2L tidak bisa
Namun harga $0,034 per gambar lebih tinggi dari dugaan saya. Biasanya harga berkorelasi dengan waktu pembuatan, dan ini menghasilkan dalam separuh waktu Nano Banana 1, sementara Nano Banana 1 berharga $0,039 per gambar
Klaim Google bahwa pipeline NB1 bisa langsung diganti dengan NB2L memang masuk akal
Kemarin Google mengumumkan bahwa mereka mengizinkan pembuatan gambar gratis di aplikasi Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), tetapi tidak menyebutkan model apa yang dipakai. Saya rasa motivasi utama Nano Banana 2 Lite ada di sini
gemini-3.1-flash-lite-image, dan bisa memakai rasio aspek seperti 16:9 dan 4:3[1] - https://cloud.google.com/developers/vertex-ai
Lumayan, tetapi berada di atas AI Studio Google yang rusak. Separuh fitur di sana tidak bisa saya pakai karena memerlukan akun Google One
Saya memakai akun Workspace, jadi tidak memenuhi syarat dan juga tidak bisa beralih. Sebab Google One tidak mendukung domain sendiri
Jadi kalau ingin memakai alamat email keren dan Banana sekaligus, apakah saya harus menjalankan dua akun dan membayar keduanya? Saya mulai merasa jumlah akun Google berbayar yang benar di sini adalah 0
Solusi saya adalah OpenRouter. Di chat untuk pengembangan dan pengujian, saya bisa membuat gambar dengan model Google, dan juga menjalankan prompt yang sama berdampingan dengan model lain. Sangat praktis untuk pembuatan gambar ringan
Umumnya saya menjadikan akun pribadi sebagai default karena punya lebih banyak konteks, tetapi itu berarti perlu beberapa langkah tambahan untuk mengambil materi seperti Workspace Drive
Dan hal seperti Project Genie sama sekali tidak bisa dipakai di Workspace, yang terasa cukup aneh
https://www.burlap.app/download
Kecepatannya jelas mengesankan. NB2 dasar sekitar 30 detik per gambar, sedangkan ini tampaknya di bawah 5 detik
Saya membuat aplikasi yang menghasilkan cerita bergambar dengan anak-anak sebagai tokohnya. Saya ingin mempertahankan gaya ilustrasi sekaligus memprioritaskan kemiripan dengan anak-anak tersebut
Saya menguji berbagai model, tetapi tampaknya tidak ada model lain yang sedekat ini dalam mempertahankan kemiripan sambil tetap distilisasi. Model lain mengubah mereka menjadi karakter generik
Saya ingin pengguna merasakan momen “aha” secepat mungkin, jadi saya antusias memasukkan model ini ke onboarding aplikasi. Menunggu lebih dari 30 detik tidak ideal
Namun untuk ilustrasi sebenarnya, saya tetap berencana memakai NB2 dasar. Seperti yang dikatakan orang lain, versi Lite ini masih punya sedikit masalah pada nuansa dan konsistensi
Tidak memasukkan ChatGPT ke grafik perbandingan. Itu sendiri sudah mengatakan banyak hal
Sebagai gantinya, latensinya menjadi masalah, dan setelan High pada ChatGPT Image 2 lambat, sekitar 2 menit pada 1024x1024
Bagaimanapun, kalau dimasukkan ke grafik ini, grafiknya akan terdistorsi sampai tidak berguna
Saya ingin menulis tentang ChatGPT Image 2, tetapi sekarang orang-orang tampaknya tidak tertarik pada pembuatan gambar yang mendetail. Padahal dalam pengujian yang ada, ChatGPT Image 2 mengungguli semuanya
Agak mengejutkan bahwa model gambar Grok mengalahkan Nano Banana di hampir semua metrik yang disorot di sini
Kedua, sejak awal ini adalah model generasi massal berbiaya rendah, bukan model frontier mutakhir, jadi wajar saja kalau benchmark-nya rendah
Saya suka Nano Banana Pro. Apakah masih ada alternatif lokal? Saya dengar tentang Qwen Image, Klein, dan Krea yang terbaru, dan penasaran mana yang layak direkomendasikan
Kalau melihat GenAI Showdown di profil saya, ada benchmark perbandingan dengan model lokal maupun proprietary
Faktanya, skornya lebih tinggi daripada Gemini 2.5, alias NB asli, dan itu cukup impresif
Saya cukup tertinggal di ranah pembuatan gambar, jadi hanya kadang memakainya untuk token roleplay, main-main, atau membuat aset sementara pribadi. Menurut standar saya, ini sudah gila
Bisa membuat gambar dalam sekitar 2 detik. Dulu untuk membuat gambar dengan kualitas yang sama di ChatGPT butuh 30 detik sampai 1 menit
Saya tidak paham reaksi negatif di sini
Dan cukup banyak reaksi negatif datang dari orang-orang yang tidak suka konsep AI art itu sendiri dan berharapnya gagal
Orang yang pekerjaannya berpusat pada gambar itu sendiri ingin mengeluarkan biaya lebih besar per gambar
Sebaliknya, jika gambar hanya bagian dari laporan, hasil sekali pakai, atau masuk ke demo, pendekatan yang murah lebih baik
Saya penasaran bagaimana mendapatkan sesuatu seperti prototipe real-time yang ada di bagian “hands on” di halaman ini
Di gemini.g, saya bisa menambahkan canvas atau memakai pembuatan gambar, tetapi saya tidak yakin harus memasukkan prompt “space lift” di mana agar hasilnya seperti demo
Wah, latensinya berkurang drastis. Dengan level ini, beberapa use case baru mungkin terbuka, tetapi halaman web yang ditautkan tidak menjelaskan perbedaan antar-model dengan mudah dipahami
Namun dari pengalaman pribadi memakai model gambar umum, menurut saya Google adalah yang terbaik untuk alur kerja saya. Tentu saja saya belum mencoba penyedia dari kawasan Timur Jauh
Saya penasaran apa pendapat orang lain