Pratinjau Gemini 2.0 Flash: Fitur pembuatan dan pengeditan gambar diperkenalkan

(developers.googleblog.com)

3 poin oleh GN⁺ 2025-05-08 | 1 komentar | Bagikan ke WhatsApp

Google merilis fitur pembuatan gambar melalui model Gemini 2.0 Flash sebagai pratinjau untuk pengembang
Dengan perintah berbasis teks, pengguna dapat membuat, memodifikasi, dan mengedit sebagian gambar, serta kualitas visual dan rendering teks juga ditingkatkan
Diperkenalkan berbagai kasus penggunaan seperti reskin produk, pembuatan SKU, dan pengeditan kolaboratif real-time
Dapat langsung diuji melalui [Google AI Studio] dan [Vertex AI], dan batas penggunaan API juga telah ditingkatkan

Pratinjau fitur pembuatan gambar Gemini 2.0 Flash dirilis

Berdasarkan masukan dari para pengembang, Google menyediakan fitur pembuatan gambar melalui model Gemini 2.0 Flash dalam versi pratinjau
Pengguna dapat mengaksesnya melalui Google AI Studio atau Vertex AI

Peningkatan utama

Kualitas visual ditingkatkan (dibandingkan versi eksperimen sebelumnya)
Akurasi rendering teks ditingkatkan
Tingkat pemblokiran oleh filter berkurang

Contoh fitur pembuatan gambar yang dapat dimanfaatkan

Penggantian latar belakang gambar produk: foto produk yang ada dapat disusun ulang dengan berbagai latar dan lingkungan
Pengeditan kolaboratif real-time: di aplikasi Gemini Co-Drawing, tersedia dukungan pengeditan gambar real-time oleh banyak pengguna
Pengeditan interaktif hanya pada sebagian gambar: tanpa mengubah keseluruhan, hanya area tertentu yang dapat dimodifikasi melalui perintah percakapan
Pembuatan SKU produk secara dinamis: dengan menggabungkan gambar dan teks, varian produk baru (warna, label, dll.) dapat dibuat otomatis
Kolaborasi brainstorming dengan Gemini: melalui kombinasi teks + gambar, berbagai skenario seperti masakan, produk, dan perencanaan dapat diwujudkan

Contoh penggunaan API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)

Rencana ke depan

Google berencana terus memperluas fitur ini melalui kualitas yang lebih tinggi, penambahan fungsi, peningkatan kecepatan, dan perbaikan paket harga
Untuk dokumentasi lebih lanjut, lihat panduan pembuatan gambar Gemini API

1 komentar

GN⁺ 2025-05-08

Komentar Hacker News

Sudah menguji Gemini 2.0 dengan membandingkannya terhadap beberapa model pembuat gambar. Tidak tahu seberapa banyak Imagen 3.0 dari Google yang disertakan, tetapi secara keseluruhan kualitas estetikanya tampak cukup tertinggal
- Keunggulan utamanya adalah aspek multimodal untuk menjaga kesetaraan dengan produk OpenAI serta kecepatan yang jauh lebih tinggi dibanding pembuatan gambar OpenAI 4o
Setiap kali menggunakan alat ini, sering kali perlu mencoba beberapa kali untuk mendapatkan hasil yang diinginkan. Ada keraguan soal penggunaan antarmuka percakapan
Perlu digunakan dengan hati-hati. Misalnya, saat meminta resep butter chicken vegetarian, yang dikembalikan adalah JSON 41MB dan 28 gambar base64. Dengan biaya 4 sen per gambar, satu permintaan menghabiskan lebih dari 1 dolar
Menggunakan Gemini 2.0 untuk membuat 100 resep beserta gambarnya, dan hasilnya cukup bagus. Menggunakan data mentah dan metadata tabel alih-alih prompt teks
Harga pembuatan gambar Gemini 2.0 adalah $0.039 per gambar, lebih mahal daripada Imagen 3. Gemini bisa membuat gambar lewat percakapan, sedangkan Imagen 3 memakai skema input teks/output gambar
Mendapat hasil yang campur aduk dari demo co-drawing. Berharap bisa membuat sketsa adegan lalu model mengembangkannya, tetapi yang dihasilkan malah figur stik yang dirender dalam 3D
Output model cukup oke, dan model baru ini sudah diperbarui ke proyek terbaru. Masih ada banyak mode kegagalan, tetapi dibutuhkan buku masak besar yang menunjukkan workflow yang bagus
Yang dituju Google dan perusahaan AI lain adalah dunia objek buatan AI yang tak terbatas dan bisa dipakai untuk belanja atau e-commerce. Ini menjadi tantangan bagi keterampilan tangan manusia yang nyata dan objek yang benar-benar ada

Pratinjau Gemini 2.0 Flash: Fitur pembuatan dan pengeditan gambar diperkenalkan

Pratinjau fitur pembuatan gambar Gemini 2.0 Flash dirilis

Peningkatan utama

Contoh fitur pembuatan gambar yang dapat dimanfaatkan

Contoh penggunaan API (Python)

Rencana ke depan

Bacaan terkait

1 komentar

Komentar Hacker News