- Proyek eksperimen yang menguji beberapa model AI pembuat gambar dengan prompt yang sama untuk menilai akurasi, kreativitas, dan konsistensi
- Total 14 model ikut serta, termasuk OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, dan Midjourney v7
- Semua model menghasilkan gambar tanpa inpainting atau fitur pengeditan, hanya berdasarkan deskripsi yang diberikan
- Setiap pengujian memiliki kriteria lulus minimum yang jelas, dan tingkat keberhasilan dihitung berdasarkan terpenuhinya elemen visual
- Hasilnya menampakkan kesenjangan performa antar model, serta menunjukkan bahwa memahami konsep kompleks atau membuat struktur matematis masih sulit
Gambaran eksperimen
- Ini adalah eksperimen benchmark perbandingan yang menilai kemampuan generasi murni tiap model berdasarkan aturan yang ketat
- Fitur seperti inpainting, remix, atau instruksi revisi lanjutan semuanya dilarang
- Setiap model hanya diizinkan melakukan beberapa puluh percobaan per prompt
- Kriteria evaluasi berfokus pada apakah syarat visual yang tepat terpenuhi
Hasil utama pengujian
- The Prussian Ring Toss
- Adegan tentara Prusia saling melempar cincin ke helm berduri satu sama lain
- 5 dari 6 model memenuhi syarat, dengan tingkat keberhasilan tertinggi
- Nine-Pointed Star
- Tugas untuk menghasilkan bintang dengan tepat memiliki 9 titik sudut
- Sebagian besar model gagal karena cenderung membentuk pola genap; hanya 3 yang berhasil
- Spheron
- Lukisan bergaya cat minyak tentang Aleksander Agung bertempur sambil menaiki mainan ‘Hippity Hop’
- Menguji kemampuan menggabungkan konteks historis dengan objek modern; hanya 4 model yang berhasil
- Cubed⁵
- Adegan menumpuk 5 kubus kaca transparan secara vertikal dengan urutan merah–biru–hijau–ungu–kuning
- 5 model mereproduksinya dengan tepat, dan rasio vertikal sangat memengaruhi kualitas hasil
- Cephalopodic Puppet Show
- Adegan setiap dari 8 lengan gurita dipakaikan boneka kaus kaki
- Tes yang membutuhkan pemahaman konseptual; hanya separuh yang memenuhi syarat
Contoh pengujian tambahan
- Quantum Entangled Einstein: penggambaran bohlam ide terkait Einstein dan mekanika kuantum → 3/6 berhasil
- The Yarrctic Circle: gambar bajak laut Arktik dengan kaki palsu dari es → 6/6 semuanya berhasil
- The Labyrinth: menghasilkan labirin 2D dengan pintu masuk, pintu keluar, dan jalur yang jelas → 1/6 berhasil
- A Dicey Situation: menerapkan sisi yang hanya berukir angka prima pada dadu 20 sisi (D20) → 0/6 semuanya gagal
Analisis dan implikasi
- Dibanding gaya visual sederhana, kesalahan lebih sering muncul pada struktur logis dan deskripsi berbasis aturan
- Tingkat kegagalan sangat tinggi terutama pada prompt dengan syarat presisi seperti teks, angka, struktur simetris, dan urutan warna
- Sebaliknya, pada prompt naratif yang emosional atau menuntut imajinasi, model menunjukkan konsistensi yang relatif lebih tinggi
- Secara keseluruhan, model GenAI masih memperlihatkan batasan dalam memahami konsep majemuk dan mereproduksi struktur
Ringkasan
- Eksperimen ini merupakan upaya menarik untuk mengukur ‘kemampuan memahami yang sesungguhnya’ antar model teks-ke-gambar
- Model terbaru seperti Midjourney dan OpenAI 4o pun gagal total pada beberapa adegan yang bersifat logis
- Hasilnya menunjukkan bahwa “memahami teks” dan “memvisualisasikan maknanya secara akurat” adalah dua persoalan yang berbeda
- Tantangan kunci bagi pengembangan model selanjutnya tampaknya adalah meningkatkan keselarasan antara konteks bahasa dan struktur visual
Belum ada komentar.