3 poin oleh GN⁺ 2025-05-08 | 1 komentar | Bagikan ke WhatsApp
  • Google merilis fitur pembuatan gambar melalui model Gemini 2.0 Flash sebagai pratinjau untuk pengembang
  • Dengan perintah berbasis teks, pengguna dapat membuat, memodifikasi, dan mengedit sebagian gambar, serta kualitas visual dan rendering teks juga ditingkatkan
  • Diperkenalkan berbagai kasus penggunaan seperti reskin produk, pembuatan SKU, dan pengeditan kolaboratif real-time
  • Dapat langsung diuji melalui [Google AI Studio] dan [Vertex AI], dan batas penggunaan API juga telah ditingkatkan

Pratinjau fitur pembuatan gambar Gemini 2.0 Flash dirilis

  • Berdasarkan masukan dari para pengembang, Google menyediakan fitur pembuatan gambar melalui model Gemini 2.0 Flash dalam versi pratinjau
  • Pengguna dapat mengaksesnya melalui Google AI Studio atau Vertex AI

Peningkatan utama

  • Kualitas visual ditingkatkan (dibandingkan versi eksperimen sebelumnya)
  • Akurasi rendering teks ditingkatkan
  • Tingkat pemblokiran oleh filter berkurang

Contoh fitur pembuatan gambar yang dapat dimanfaatkan

  • Penggantian latar belakang gambar produk: foto produk yang ada dapat disusun ulang dengan berbagai latar dan lingkungan
  • Pengeditan kolaboratif real-time: di aplikasi Gemini Co-Drawing, tersedia dukungan pengeditan gambar real-time oleh banyak pengguna
  • Pengeditan interaktif hanya pada sebagian gambar: tanpa mengubah keseluruhan, hanya area tertentu yang dapat dimodifikasi melalui perintah percakapan
  • Pembuatan SKU produk secara dinamis: dengan menggabungkan gambar dan teks, varian produk baru (warna, label, dll.) dapat dibuat otomatis
  • Kolaborasi brainstorming dengan Gemini: melalui kombinasi teks + gambar, berbagai skenario seperti masakan, produk, dan perencanaan dapat diwujudkan

Contoh penggunaan API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

Rencana ke depan

  • Google berencana terus memperluas fitur ini melalui kualitas yang lebih tinggi, penambahan fungsi, peningkatan kecepatan, dan perbaikan paket harga
  • Untuk dokumentasi lebih lanjut, lihat panduan pembuatan gambar Gemini API

1 komentar

 
GN⁺ 2025-05-08
Komentar Hacker News
  • Sudah menguji Gemini 2.0 dengan membandingkannya terhadap beberapa model pembuat gambar. Tidak tahu seberapa banyak Imagen 3.0 dari Google yang disertakan, tetapi secara keseluruhan kualitas estetikanya tampak cukup tertinggal
    • Keunggulan utamanya adalah aspek multimodal untuk menjaga kesetaraan dengan produk OpenAI serta kecepatan yang jauh lebih tinggi dibanding pembuatan gambar OpenAI 4o
  • Setiap kali menggunakan alat ini, sering kali perlu mencoba beberapa kali untuk mendapatkan hasil yang diinginkan. Ada keraguan soal penggunaan antarmuka percakapan
  • Perlu digunakan dengan hati-hati. Misalnya, saat meminta resep butter chicken vegetarian, yang dikembalikan adalah JSON 41MB dan 28 gambar base64. Dengan biaya 4 sen per gambar, satu permintaan menghabiskan lebih dari 1 dolar
  • Menggunakan Gemini 2.0 untuk membuat 100 resep beserta gambarnya, dan hasilnya cukup bagus. Menggunakan data mentah dan metadata tabel alih-alih prompt teks
  • Harga pembuatan gambar Gemini 2.0 adalah $0.039 per gambar, lebih mahal daripada Imagen 3. Gemini bisa membuat gambar lewat percakapan, sedangkan Imagen 3 memakai skema input teks/output gambar
  • Mendapat hasil yang campur aduk dari demo co-drawing. Berharap bisa membuat sketsa adegan lalu model mengembangkannya, tetapi yang dihasilkan malah figur stik yang dirender dalam 3D
  • Output model cukup oke, dan model baru ini sudah diperbarui ke proyek terbaru. Masih ada banyak mode kegagalan, tetapi dibutuhkan buku masak besar yang menunjukkan workflow yang bagus
  • Yang dituju Google dan perusahaan AI lain adalah dunia objek buatan AI yang tak terbatas dan bisa dipakai untuk belanja atau e-commerce. Ini menjadi tantangan bagi keterampilan tangan manusia yang nyata dan objek yang benar-benar ada