1 poin oleh GN⁺ 2025-10-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Proyek eksperimen yang menguji beberapa model AI pembuat gambar dengan prompt yang sama untuk menilai akurasi, kreativitas, dan konsistensi
  • Total 14 model ikut serta, termasuk OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, dan Midjourney v7
  • Semua model menghasilkan gambar tanpa inpainting atau fitur pengeditan, hanya berdasarkan deskripsi yang diberikan
  • Setiap pengujian memiliki kriteria lulus minimum yang jelas, dan tingkat keberhasilan dihitung berdasarkan terpenuhinya elemen visual
  • Hasilnya menampakkan kesenjangan performa antar model, serta menunjukkan bahwa memahami konsep kompleks atau membuat struktur matematis masih sulit

Gambaran eksperimen

  • Ini adalah eksperimen benchmark perbandingan yang menilai kemampuan generasi murni tiap model berdasarkan aturan yang ketat
    • Fitur seperti inpainting, remix, atau instruksi revisi lanjutan semuanya dilarang
    • Setiap model hanya diizinkan melakukan beberapa puluh percobaan per prompt
  • Kriteria evaluasi berfokus pada apakah syarat visual yang tepat terpenuhi

Hasil utama pengujian

  • The Prussian Ring Toss
    • Adegan tentara Prusia saling melempar cincin ke helm berduri satu sama lain
    • 5 dari 6 model memenuhi syarat, dengan tingkat keberhasilan tertinggi
  • Nine-Pointed Star
    • Tugas untuk menghasilkan bintang dengan tepat memiliki 9 titik sudut
    • Sebagian besar model gagal karena cenderung membentuk pola genap; hanya 3 yang berhasil
  • Spheron
    • Lukisan bergaya cat minyak tentang Aleksander Agung bertempur sambil menaiki mainan ‘Hippity Hop’
    • Menguji kemampuan menggabungkan konteks historis dengan objek modern; hanya 4 model yang berhasil
  • Cubed⁵
    • Adegan menumpuk 5 kubus kaca transparan secara vertikal dengan urutan merah–biru–hijau–ungu–kuning
    • 5 model mereproduksinya dengan tepat, dan rasio vertikal sangat memengaruhi kualitas hasil
  • Cephalopodic Puppet Show
    • Adegan setiap dari 8 lengan gurita dipakaikan boneka kaus kaki
    • Tes yang membutuhkan pemahaman konseptual; hanya separuh yang memenuhi syarat

Contoh pengujian tambahan

  • Quantum Entangled Einstein: penggambaran bohlam ide terkait Einstein dan mekanika kuantum → 3/6 berhasil
  • The Yarrctic Circle: gambar bajak laut Arktik dengan kaki palsu dari es → 6/6 semuanya berhasil
  • The Labyrinth: menghasilkan labirin 2D dengan pintu masuk, pintu keluar, dan jalur yang jelas → 1/6 berhasil
  • A Dicey Situation: menerapkan sisi yang hanya berukir angka prima pada dadu 20 sisi (D20) → 0/6 semuanya gagal

Analisis dan implikasi

  • Dibanding gaya visual sederhana, kesalahan lebih sering muncul pada struktur logis dan deskripsi berbasis aturan
  • Tingkat kegagalan sangat tinggi terutama pada prompt dengan syarat presisi seperti teks, angka, struktur simetris, dan urutan warna
  • Sebaliknya, pada prompt naratif yang emosional atau menuntut imajinasi, model menunjukkan konsistensi yang relatif lebih tinggi
  • Secara keseluruhan, model GenAI masih memperlihatkan batasan dalam memahami konsep majemuk dan mereproduksi struktur

Ringkasan

  • Eksperimen ini merupakan upaya menarik untuk mengukur ‘kemampuan memahami yang sesungguhnya’ antar model teks-ke-gambar
  • Model terbaru seperti Midjourney dan OpenAI 4o pun gagal total pada beberapa adegan yang bersifat logis
  • Hasilnya menunjukkan bahwa “memahami teks” dan “memvisualisasikan maknanya secara akurat” adalah dua persoalan yang berbeda
  • Tantangan kunci bagi pengembangan model selanjutnya tampaknya adalah meningkatkan keselarasan antara konteks bahasa dan struktur visual

Belum ada komentar.

Belum ada komentar.