Showdown Gambar GenAI
(genai-showdown.specr.net)- Proyek eksperimen yang menguji beberapa model AI pembuat gambar dengan prompt yang sama untuk menilai akurasi, kreativitas, dan konsistensi
- Total 14 model ikut serta, termasuk OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, dan Midjourney v7
- Semua model menghasilkan gambar tanpa inpainting atau fitur pengeditan, hanya berdasarkan deskripsi yang diberikan
- Setiap pengujian memiliki kriteria lulus minimum yang jelas, dan tingkat keberhasilan dihitung berdasarkan terpenuhinya elemen visual
- Hasilnya menampakkan kesenjangan performa antar model, serta menunjukkan bahwa memahami konsep kompleks atau membuat struktur matematis masih sulit
Gambaran eksperimen
- Ini adalah eksperimen benchmark perbandingan yang menilai kemampuan generasi murni tiap model berdasarkan aturan yang ketat
- Fitur seperti inpainting, remix, atau instruksi revisi lanjutan semuanya dilarang
- Setiap model hanya diizinkan melakukan beberapa puluh percobaan per prompt
- Kriteria evaluasi berfokus pada apakah syarat visual yang tepat terpenuhi
Hasil utama pengujian
- The Prussian Ring Toss
- Adegan tentara Prusia saling melempar cincin ke helm berduri satu sama lain
- 5 dari 6 model memenuhi syarat, dengan tingkat keberhasilan tertinggi
- Nine-Pointed Star
- Tugas untuk menghasilkan bintang dengan tepat memiliki 9 titik sudut
- Sebagian besar model gagal karena cenderung membentuk pola genap; hanya 3 yang berhasil
- Spheron
- Lukisan bergaya cat minyak tentang Aleksander Agung bertempur sambil menaiki mainan ‘Hippity Hop’
- Menguji kemampuan menggabungkan konteks historis dengan objek modern; hanya 4 model yang berhasil
- Cubed⁵
- Adegan menumpuk 5 kubus kaca transparan secara vertikal dengan urutan merah–biru–hijau–ungu–kuning
- 5 model mereproduksinya dengan tepat, dan rasio vertikal sangat memengaruhi kualitas hasil
- Cephalopodic Puppet Show
- Adegan setiap dari 8 lengan gurita dipakaikan boneka kaus kaki
- Tes yang membutuhkan pemahaman konseptual; hanya separuh yang memenuhi syarat
Contoh pengujian tambahan
- Quantum Entangled Einstein: penggambaran bohlam ide terkait Einstein dan mekanika kuantum → 3/6 berhasil
- The Yarrctic Circle: gambar bajak laut Arktik dengan kaki palsu dari es → 6/6 semuanya berhasil
- The Labyrinth: menghasilkan labirin 2D dengan pintu masuk, pintu keluar, dan jalur yang jelas → 1/6 berhasil
- A Dicey Situation: menerapkan sisi yang hanya berukir angka prima pada dadu 20 sisi (D20) → 0/6 semuanya gagal
Analisis dan implikasi
- Dibanding gaya visual sederhana, kesalahan lebih sering muncul pada struktur logis dan deskripsi berbasis aturan
- Tingkat kegagalan sangat tinggi terutama pada prompt dengan syarat presisi seperti teks, angka, struktur simetris, dan urutan warna
- Sebaliknya, pada prompt naratif yang emosional atau menuntut imajinasi, model menunjukkan konsistensi yang relatif lebih tinggi
- Secara keseluruhan, model GenAI masih memperlihatkan batasan dalam memahami konsep majemuk dan mereproduksi struktur
Ringkasan
- Eksperimen ini merupakan upaya menarik untuk mengukur ‘kemampuan memahami yang sesungguhnya’ antar model teks-ke-gambar
- Model terbaru seperti Midjourney dan OpenAI 4o pun gagal total pada beberapa adegan yang bersifat logis
- Hasilnya menunjukkan bahwa “memahami teks” dan “memvisualisasikan maknanya secara akurat” adalah dua persoalan yang berbeda
- Tantangan kunci bagi pengembangan model selanjutnya tampaknya adalah meningkatkan keselarasan antara konteks bahasa dan struktur visual
1 komentar
Pendapat Hacker News
Bahkan hal yang legal pun diblokir dengan alasan “tidak diizinkan”, rasanya seperti penyensoran ala 1964 yang dipaksakan korporasi
GPT-5 juga makin tak tertahankan karena di awal percakapan selalu dimulai dengan ucapan menjilat seperti “pertanyaan yang bagus” atau “pengamatan yang luar biasa”
Jika data preferensi pengguna dilatih dengan RLHF, efek sampingnya model jadi penjilat
Sekarang sebagian besar LLM utama memang seperti itu, tetapi menurut saya tetap lebih baik daripada GPT-4o
ChatGPT adalah produk untuk perusahaan, jadi kalau bisa membuat gambar kekerasan atau bernuansa seksual, perusahaan besar tidak akan pernah membelinya
Berdasarkan pengalaman saya bekerja sebagai penanggung jawab pembelian software di perusahaan Fortune 500, saya yakin 100%
Tanpa tanggal, saat pertama melihatnya jadi terkesan seolah dibuat bersamaan
Semoga kedua sisi bantal mereka selalu panas
Sebenarnya ini fitur untuk menghasilkan gambar baru, tetapi tampaknya dipakai dalam arti memodifikasi gambar yang sudah ada
Model multimodal seperti Qwen3-VL-30B-A3B cukup bagus dalam mengedit gambar yang ada. imagegpt.com juga lumayan, tetapi saya tidak tahu model apa yang dipakainya
Sebagai catatan, Qwen3-VL bukan model untuk generasi atau editing gambar, melainkan model penalaran gambar
Kemungkinan mereka memakai Qwen-Image-Edit di backend
Misalnya jika diberi prompt “tambahkan rambut pada pria botak”, hasilnya adalah versi modifikasi dari gambar asli
Secara teknis itu memang proses menghasilkan gambar baru, tetapi menurut saya konsepnya mirip Save As di Photoshop
GPT-4o punya temperature rendah sehingga lebih konsisten tetapi kurang kreatif, sedangkan Midjourney memakai temperature lebih tinggi untuk menghasilkan latar belakang dan tekstur yang kaya
Nada sepia pada 4o mungkin juga hasil pascaproses
Dalam praktiknya, kemungkinan besar ada alur kerja multi-tahap untuk memoles gambar akhir
Namun model berbasis LLM memang sering memakai penulisan ulang prompt (prompt rewriting)
Kasus DALL·E 3 dijelaskan dengan baik di tulisan ini
Saya sedang menunggu umpan balik dari para pendaftar
Tautan Generative AI Review
Namun saya masih belum benar-benar paham bagaimana struktur beberapa kali percobaan lalu dievaluasi oleh LLM lain itu bekerja. Bukankah akurasinya sendiri akan terbatas?
Dengan metode PASS/FAIL, jika sama sekali gagal menghasilkan gambar yang sesuai prompt, maka dianggap gagal
Konsepnya seperti tes Pictionary: “kalau diperlihatkan ke orang acak di jalan, apakah mereka bisa menebak prompt-nya?”
Penilaian akhir ditentukan secara manual berdasarkan kriteria yang jelas
Anda tidak bisa mengurung penilai manusia dalam kotak lalu menyuruh mereka menilai 7600 hasil
Tentu penilaian LLM juga tidak sempurna, tetapi dalam hal keterbandingan dan konsistensi ia lebih baik daripada manusia
Selama ini dipakai bukan sebagai target optimasi melainkan hanya sebagai termometer performa, seharusnya tidak masalah besar
Tetapi jika dijadikan sasaran optimasi, bisa muncul hasil aneh seperti pada GPT-5