Analisis Perbandingan Kinerja Model Pengeditan Gambar AI Teks-ke-Gambar

(genai-showdown.specr.net)

3 poin oleh baeba 2025-10-29 | Belum ada komentar. | Bagikan ke WhatsApp

Ringkasan analisis perbandingan kinerja model pengeditan gambar berbasis teks

Poin utama:
- Mengevaluasi kemampuan 7 model pengeditan gambar berbasis teks terbaru dalam menjalankan 12 tugas pengeditan.
- Seedream 4 menunjukkan kinerja tertinggi dengan berhasil pada 9 dari 12 tugas, diikuti Gemini 2.5 Flash dengan 7 keberhasilan.
- Evaluasi dilakukan di bawah aturan ketat berupa pendekatan prompt tunggal (One-shot) dan pengeditan tanpa masking manual (Non-masked).
- Model-model menunjukkan tingkat keberhasilan rendah pada instruksi kompleks seperti pertukaran posisi spasial dan penghapusan selektif elemen tertentu.

Tujuan evaluasi: Membandingkan dan menganalisis kinerja berbagai model pengeditan gambar terbaru (SOTA) dengan fokus pada modifikasi gambar berdasarkan perintah teks (Text-instructed).
Model yang dievaluasi (7 jenis): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (1 model tambahan dikeluarkan dari daftar).
Tugas evaluasi: Menyajikan total 12 prompt pengeditan dan tantangan dengan tingkat kesulitan serta jenis yang beragam.
Aturan kompetisi:
- Prinsip satu percobaan (Single-attempt): Pengeditan berulang pada gambar yang sama menggunakan prompt koreksi berurutan tidak diizinkan; target harus dicapai hanya dalam satu kali percobaan.
- Pengeditan murni berbasis teks (Purely text-based): Pengeditan gambar harus dilakukan hanya melalui instruksi teks, sehingga fitur seperti img2img atau masking manual (Manual Masking) untuk inpainting tidak diizinkan.

Kinerja terbaik: Seedream 4 menunjukkan performa paling menonjol dengan 9 keberhasilan dari 12 tugas.
Kinerja peringkat kedua: Gemini 2.5 Flash menempati posisi berikutnya dengan 7 keberhasilan.
Peringkat menengah: Qwen-Image-Edit mencatat 6 keberhasilan, dan FLUX.1 Kontext [dev] mencatat 5 keberhasilan.
Peringkat bawah: OpenAI gpt-image-1 hanya berhasil pada 4 tugas, dan OmniGen2 hanya 1 tugas.

'SHRDLU' (pertukaran posisi blok): Semua 6 model gagal (0/6). Sebagian besar model hanya menukar warna blok, bukan posisinya; Gemini 2.5 Flash dan Seedream 4 juga hanya menukar warna.
'Meluruskan Menara Pisa yang miring': 2 dari 6 berhasil (2/6). Tugas ini memerlukan pengenalan spasial dasar, dan model kesulitan mengoreksi hanya objek tertentu secara vertikal sambil mempertahankan lingkungan lainnya.

'Mengubah Jaws menjadi Paws dan pengeditan ganda lainnya': 5 dari 6 berhasil (5/6). Tugas ini menuntut banyak perubahan sekaligus, dan OmniGen2 berhasil mengedit tetapi gagal mempertahankan gaya estetika asli.
'Menambahkan rambut pada pria berjanggut': 4 dari 6 berhasil (4/6). Hasil Gemini 2.5 Flash cukup baik, tetapi rambutnya terlihat terlalu tajam, sedangkan OpenAI gpt-image-1 mengubah keseluruhan gambar.
'Mengubah kartu hwatu': 3 dari 6 berhasil (3/6). Pada uji kemampuan pengeditan selektif untuk hanya mengganti kartu tertentu (King of Spades) sambil membiarkan kartu lain (Ace of Spades) tetap sama, Qwen-Image-Edit ikut mengubah Ace of Spades yang seharusnya tidak diubah.

'Memendekkan leher jerapah': 1 dari 6 berhasil (1/6). Sebagian besar model gagal memendekkan leher jerapah, atau seperti pada Qwen-Image-Edit, justru menghapus seluruh leher karena menafsirkan prompt secara tidak normal.
'Menghapus permen M&M warna cokelat': 1 dari 6 berhasil (1/6). Model kesulitan menghapus secara selektif (atau mengubah warna) hanya permen dengan warna tertentu, dan Gemini 2.5 Flash malah menghasilkan susunan permen baru.
'Mengganti kanguru pada rambu tua dengan siluet cacing pasir': 1 dari 6 berhasil (1/6). Model kurang mampu menanamkan elemen baru sambil mempertahankan tekstur usang seperti goresan dan karat pada rambu lama.

Ciri model terbaik: Seedream 4 dan Gemini 2.5 Flash secara umum menunjukkan kinerja unggul, tetapi masih memiliki keterbatasan dalam memahami dan menerapkan instruksi teks yang kompleks dan bernuansa secara sempurna.
Jenis kegagalan utama: Model secara konsisten mencatat tingkat keberhasilan rendah pada tugas yang menuntut pemahaman akurat atas hubungan spasial serta pengeditan selektif dan pelestarian elemen mikro tertentu dalam gambar.
Arah pengembangan ke depan:
- GPT-image-1 sering menunjukkan kecenderungan mengubah seluruh gambar tanpa sengaja, sehingga akurasi pelokalan area edit perlu ditingkatkan.
- Pada beberapa model seperti 'FLUX.1 Kontext [dev]' dan 'Kontext Max', muncul hasil yang tidak lazim di mana model yang lebih besar justru berkinerja lebih buruk daripada model versi pengembangan yang lebih kecil, sehingga perlu analisis tentang pengaruh jenis data pelatihan (foto vs. ilustrasi) terhadap performa.
- Untuk tugas yang sulit diselesaikan dengan satu prompt (misalnya perubahan desain kartu), metode pengujian perlu dikembangkan dengan menerima banyak gambar sebagai input untuk dijadikan referensi.