Showdown Gambar GenAI

(genai-showdown.specr.net)

1 poin oleh GN⁺ 2025-10-28 | 1 komentar | Bagikan ke WhatsApp

Proyek eksperimen yang menguji beberapa model AI pembuat gambar dengan prompt yang sama untuk menilai akurasi, kreativitas, dan konsistensi
Total 14 model ikut serta, termasuk OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, dan Midjourney v7
Semua model menghasilkan gambar tanpa inpainting atau fitur pengeditan, hanya berdasarkan deskripsi yang diberikan
Setiap pengujian memiliki kriteria lulus minimum yang jelas, dan tingkat keberhasilan dihitung berdasarkan terpenuhinya elemen visual
Hasilnya menampakkan kesenjangan performa antar model, serta menunjukkan bahwa memahami konsep kompleks atau membuat struktur matematis masih sulit

Gambaran eksperimen

Ini adalah eksperimen benchmark perbandingan yang menilai kemampuan generasi murni tiap model berdasarkan aturan yang ketat
- Fitur seperti inpainting, remix, atau instruksi revisi lanjutan semuanya dilarang
- Setiap model hanya diizinkan melakukan beberapa puluh percobaan per prompt
Kriteria evaluasi berfokus pada apakah syarat visual yang tepat terpenuhi

Hasil utama pengujian

The Prussian Ring Toss
- Adegan tentara Prusia saling melempar cincin ke helm berduri satu sama lain
- 5 dari 6 model memenuhi syarat, dengan tingkat keberhasilan tertinggi
Nine-Pointed Star
- Tugas untuk menghasilkan bintang dengan tepat memiliki 9 titik sudut
- Sebagian besar model gagal karena cenderung membentuk pola genap; hanya 3 yang berhasil
Spheron
- Lukisan bergaya cat minyak tentang Aleksander Agung bertempur sambil menaiki mainan ‘Hippity Hop’
- Menguji kemampuan menggabungkan konteks historis dengan objek modern; hanya 4 model yang berhasil
Cubed⁵
- Adegan menumpuk 5 kubus kaca transparan secara vertikal dengan urutan merah–biru–hijau–ungu–kuning
- 5 model mereproduksinya dengan tepat, dan rasio vertikal sangat memengaruhi kualitas hasil
Cephalopodic Puppet Show
- Adegan setiap dari 8 lengan gurita dipakaikan boneka kaus kaki
- Tes yang membutuhkan pemahaman konseptual; hanya separuh yang memenuhi syarat

Contoh pengujian tambahan

Quantum Entangled Einstein: penggambaran bohlam ide terkait Einstein dan mekanika kuantum → 3/6 berhasil
The Yarrctic Circle: gambar bajak laut Arktik dengan kaki palsu dari es → 6/6 semuanya berhasil
The Labyrinth: menghasilkan labirin 2D dengan pintu masuk, pintu keluar, dan jalur yang jelas → 1/6 berhasil
A Dicey Situation: menerapkan sisi yang hanya berukir angka prima pada dadu 20 sisi (D20) → 0/6 semuanya gagal

Analisis dan implikasi

Dibanding gaya visual sederhana, kesalahan lebih sering muncul pada struktur logis dan deskripsi berbasis aturan
Tingkat kegagalan sangat tinggi terutama pada prompt dengan syarat presisi seperti teks, angka, struktur simetris, dan urutan warna
Sebaliknya, pada prompt naratif yang emosional atau menuntut imajinasi, model menunjukkan konsistensi yang relatif lebih tinggi
Secara keseluruhan, model GenAI masih memperlihatkan batasan dalam memahami konsep majemuk dan mereproduksi struktur

Ringkasan

Eksperimen ini merupakan upaya menarik untuk mengukur ‘kemampuan memahami yang sesungguhnya’ antar model teks-ke-gambar
Model terbaru seperti Midjourney dan OpenAI 4o pun gagal total pada beberapa adegan yang bersifat logis
Hasilnya menunjukkan bahwa “memahami teks” dan “memvisualisasikan maknanya secara akurat” adalah dua persoalan yang berbeda
Tantangan kunci bagi pengembangan model selanjutnya tampaknya adalah meningkatkan keselarasan antara konteks bahasa dan struktur visual

1 komentar

GN⁺ 2025-10-28

Pendapat Hacker News

Sangat menyebalkan saat memakai GPT-4o karena perusahaan bertindak seperti penentu moral dan sering menolak permintaan pengguna
Bahkan hal yang legal pun diblokir dengan alasan “tidak diizinkan”, rasanya seperti penyensoran ala 1964 yang dipaksakan korporasi
GPT-5 juga makin tak tertahankan karena di awal percakapan selalu dimulai dengan ucapan menjilat seperti “pertanyaan yang bagus” atau “pengamatan yang luar biasa”
- Banyak orang mengkritik Altman karena mengizinkan NSFW di ChatGPT, tetapi menurut saya itu langkah yang benar menuju pelonggaran sensor korporat
  Jika data preferensi pengguna dilatih dengan RLHF, efek sampingnya model jadi penjilat
  Sekarang sebagian besar LLM utama memang seperti itu, tetapi menurut saya tetap lebih baik daripada GPT-4o
- Kalau mencoba model-model asal Tiongkok, pembatasannya jauh lebih sedikit, meski tentu ada beberapa pengecualian
- Saya belum pernah melihat perangkat lunak perusahaan yang mengizinkan NSFW
  ChatGPT adalah produk untuk perusahaan, jadi kalau bisa membuat gambar kekerasan atau bernuansa seksual, perusahaan besar tidak akan pernah membelinya
  Berdasarkan pengalaman saya bekerja sebagai penanggung jawab pembelian software di perusahaan Fortune 500, saya yakin 100%
Aneh karena artikelnya tidak mencantumkan tanggal, tetapi setelah melihat Wayback saya memastikan bahwa halaman text-to-image ditambahkan pada April, dan halaman image editing pada September
Tanpa tanggal, saat pertama melihatnya jadi terkesan seolah dibuat bersamaan
- Sepertinya ini karena orang SEO meyakinkan mereka bahwa artikel tanpa tanggal lebih mudah naik di mesin pencari
  Semoga kedua sisi bantal mereka selalu panas
- Betul, ini materi yang sudah cukup lama. Di dunia AI sekarang, lewat seminggu saja sudah terasa usang
Awalnya istilah “image editing” membingungkan
Sebenarnya ini fitur untuk menghasilkan gambar baru, tetapi tampaknya dipakai dalam arti memodifikasi gambar yang sudah ada
Model multimodal seperti Qwen3-VL-30B-A3B cukup bagus dalam mengedit gambar yang ada. imagegpt.com juga lumayan, tetapi saya tidak tahu model apa yang dipakainya
- Setelah menerima umpan balik seperti ini beberapa kali, saya jadi merasa navigation bar di bagian atas harus dibuat lebih menonjol
  Sebagai catatan, Qwen3-VL bukan model untuk generasi atau editing gambar, melainkan model penalaran gambar
  Kemungkinan mereka memakai Qwen-Image-Edit di backend
- Di situs yang saya lihat, itu tampak seperti mengedit gambar yang sudah ada
  Misalnya jika diberi prompt “tambahkan rambut pada pria botak”, hasilnya adalah versi modifikasi dari gambar asli
  Secara teknis itu memang proses menghasilkan gambar baru, tetapi menurut saya konsepnya mirip Save As di Photoshop
Tautan yang sebenarnya adalah https://genai-showdown.specr.net/image-editing
- Benar, ini tautan untuk editing. Yang satunya lagi untuk text-to-image
Saya menduga model-model itu secara internal membuat beberapa gambar lalu hanya menampilkan hasil terbaik
GPT-4o punya temperature rendah sehingga lebih konsisten tetapi kurang kreatif, sedangkan Midjourney memakai temperature lebih tinggi untuk menghasilkan latar belakang dan tekstur yang kaya
Nada sepia pada 4o mungkin juga hasil pascaproses
Dalam praktiknya, kemungkinan besar ada alur kerja multi-tahap untuk memoles gambar akhir
- Jika pernah menjalankan model gambar sendiri secara lokal, kita akan tahu bahwa sebagian besar model yang dihosting tidak membuat beberapa kali, melainkan hanya sekali jalan
  Namun model berbasis LLM memang sering memakai penulisan ulang prompt (prompt rewriting)
  Kasus DALL·E 3 dijelaskan dengan baik di tulisan ini
- Akan lebih menarik kalau mereka mempublikasikan jumlah percobaan generasi dan hasil untuk tiap prompt
Saya langsung upvote saat melihat “Alexander the Great on a Hippity Hop”
- Saya juga sudah benar-benar lupa dengan mainan itu, tetapi melihat ini membuat kenangan masa kecil kembali muncul
- Meski begitu, saya lebih suka gambar chimera kuda
Kalau ingin membandingkan model gambar lewat pengujian langsung, bisa mencobanya gratis di BrandImageGen.com
Saya sedang menunggu umpan balik dari para pendaftar
Ada yang bertanya di mana meme “jangan menggambar gajah hijau”, lalu menemukan bahwa itu diusulkan dalam diskusi GitHub
Seseorang memposting tulisan yang berisi ulasan perbandingan beberapa alat pembuat gambar
Tautan Generative AI Review
Berkat “Editing Showdown”, saya jadi pertama kali tahu tentang model Seedream
Namun saya masih belum benar-benar paham bagaimana struktur beberapa kali percobaan lalu dievaluasi oleh LLM lain itu bekerja. Bukankah akurasinya sendiri akan terbatas?
- Di FAQ, kriteria penilaiannya dijelaskan dengan jelas
  Dengan metode PASS/FAIL, jika sama sekali gagal menghasilkan gambar yang sesuai prompt, maka dianggap gagal
  Konsepnya seperti tes Pictionary: “kalau diperlihatkan ke orang acak di jalan, apakah mereka bisa menebak prompt-nya?”
  Penilaian akhir ditentukan secara manual berdasarkan kriteria yang jelas
- LLM menilai LLM lain adalah standar industri
  Anda tidak bisa mengurung penilai manusia dalam kotak lalu menyuruh mereka menilai 7600 hasil
  Tentu penilaian LLM juga tidak sempurna, tetapi dalam hal keterbandingan dan konsistensi ia lebih baik daripada manusia
  Selama ini dipakai bukan sebagai target optimasi melainkan hanya sebagai termometer performa, seharusnya tidak masalah besar
  Tetapi jika dijadikan sasaran optimasi, bisa muncul hasil aneh seperti pada GPT-5

Showdown Gambar GenAI

Gambaran eksperimen

Hasil utama pengujian

Contoh pengujian tambahan

Analisis dan implikasi

Ringkasan

Bacaan terkait

1 komentar

Pendapat Hacker News