1 poin oleh GN⁺ 2025-10-28 | 1 komentar | Bagikan ke WhatsApp
  • Proyek eksperimen yang menguji beberapa model AI pembuat gambar dengan prompt yang sama untuk menilai akurasi, kreativitas, dan konsistensi
  • Total 14 model ikut serta, termasuk OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, dan Midjourney v7
  • Semua model menghasilkan gambar tanpa inpainting atau fitur pengeditan, hanya berdasarkan deskripsi yang diberikan
  • Setiap pengujian memiliki kriteria lulus minimum yang jelas, dan tingkat keberhasilan dihitung berdasarkan terpenuhinya elemen visual
  • Hasilnya menampakkan kesenjangan performa antar model, serta menunjukkan bahwa memahami konsep kompleks atau membuat struktur matematis masih sulit

Gambaran eksperimen

  • Ini adalah eksperimen benchmark perbandingan yang menilai kemampuan generasi murni tiap model berdasarkan aturan yang ketat
    • Fitur seperti inpainting, remix, atau instruksi revisi lanjutan semuanya dilarang
    • Setiap model hanya diizinkan melakukan beberapa puluh percobaan per prompt
  • Kriteria evaluasi berfokus pada apakah syarat visual yang tepat terpenuhi

Hasil utama pengujian

  • The Prussian Ring Toss
    • Adegan tentara Prusia saling melempar cincin ke helm berduri satu sama lain
    • 5 dari 6 model memenuhi syarat, dengan tingkat keberhasilan tertinggi
    Iklan
  • Nine-Pointed Star
    • Tugas untuk menghasilkan bintang dengan tepat memiliki 9 titik sudut
    • Sebagian besar model gagal karena cenderung membentuk pola genap; hanya 3 yang berhasil
  • Spheron
    • Lukisan bergaya cat minyak tentang Aleksander Agung bertempur sambil menaiki mainan ‘Hippity Hop’
    • Menguji kemampuan menggabungkan konteks historis dengan objek modern; hanya 4 model yang berhasil
  • Cubed⁵
    • Adegan menumpuk 5 kubus kaca transparan secara vertikal dengan urutan merah–biru–hijau–ungu–kuning
    • 5 model mereproduksinya dengan tepat, dan rasio vertikal sangat memengaruhi kualitas hasil
  • Cephalopodic Puppet Show
    • Adegan setiap dari 8 lengan gurita dipakaikan boneka kaus kaki
    • Tes yang membutuhkan pemahaman konseptual; hanya separuh yang memenuhi syarat
    Iklan

Contoh pengujian tambahan

  • Quantum Entangled Einstein: penggambaran bohlam ide terkait Einstein dan mekanika kuantum → 3/6 berhasil
  • The Yarrctic Circle: gambar bajak laut Arktik dengan kaki palsu dari es → 6/6 semuanya berhasil
  • The Labyrinth: menghasilkan labirin 2D dengan pintu masuk, pintu keluar, dan jalur yang jelas → 1/6 berhasil
  • A Dicey Situation: menerapkan sisi yang hanya berukir angka prima pada dadu 20 sisi (D20) → 0/6 semuanya gagal

Analisis dan implikasi

  • Dibanding gaya visual sederhana, kesalahan lebih sering muncul pada struktur logis dan deskripsi berbasis aturan
  • Tingkat kegagalan sangat tinggi terutama pada prompt dengan syarat presisi seperti teks, angka, struktur simetris, dan urutan warna
  • Sebaliknya, pada prompt naratif yang emosional atau menuntut imajinasi, model menunjukkan konsistensi yang relatif lebih tinggi
  • Secara keseluruhan, model GenAI masih memperlihatkan batasan dalam memahami konsep majemuk dan mereproduksi struktur

Ringkasan

  • Eksperimen ini merupakan upaya menarik untuk mengukur ‘kemampuan memahami yang sesungguhnya’ antar model teks-ke-gambar
  • Model terbaru seperti Midjourney dan OpenAI 4o pun gagal total pada beberapa adegan yang bersifat logis
  • Hasilnya menunjukkan bahwa “memahami teks” dan “memvisualisasikan maknanya secara akurat” adalah dua persoalan yang berbeda
  • Tantangan kunci bagi pengembangan model selanjutnya tampaknya adalah meningkatkan keselarasan antara konteks bahasa dan struktur visual

1 komentar

 
GN⁺ 2025-10-28
Pendapat Hacker News
  • Sangat menyebalkan saat memakai GPT-4o karena perusahaan bertindak seperti penentu moral dan sering menolak permintaan pengguna
    Bahkan hal yang legal pun diblokir dengan alasan “tidak diizinkan”, rasanya seperti penyensoran ala 1964 yang dipaksakan korporasi
    GPT-5 juga makin tak tertahankan karena di awal percakapan selalu dimulai dengan ucapan menjilat seperti “pertanyaan yang bagus” atau “pengamatan yang luar biasa”
    • Banyak orang mengkritik Altman karena mengizinkan NSFW di ChatGPT, tetapi menurut saya itu langkah yang benar menuju pelonggaran sensor korporat
      Jika data preferensi pengguna dilatih dengan RLHF, efek sampingnya model jadi penjilat
      Sekarang sebagian besar LLM utama memang seperti itu, tetapi menurut saya tetap lebih baik daripada GPT-4o
    • Kalau mencoba model-model asal Tiongkok, pembatasannya jauh lebih sedikit, meski tentu ada beberapa pengecualian
    • Saya belum pernah melihat perangkat lunak perusahaan yang mengizinkan NSFW
      ChatGPT adalah produk untuk perusahaan, jadi kalau bisa membuat gambar kekerasan atau bernuansa seksual, perusahaan besar tidak akan pernah membelinya
      Berdasarkan pengalaman saya bekerja sebagai penanggung jawab pembelian software di perusahaan Fortune 500, saya yakin 100%
  • Aneh karena artikelnya tidak mencantumkan tanggal, tetapi setelah melihat Wayback saya memastikan bahwa halaman text-to-image ditambahkan pada April, dan halaman image editing pada September
    Tanpa tanggal, saat pertama melihatnya jadi terkesan seolah dibuat bersamaan
    • Sepertinya ini karena orang SEO meyakinkan mereka bahwa artikel tanpa tanggal lebih mudah naik di mesin pencari
      Semoga kedua sisi bantal mereka selalu panas
    • Betul, ini materi yang sudah cukup lama. Di dunia AI sekarang, lewat seminggu saja sudah terasa usang
  • Awalnya istilah “image editing” membingungkan
    Sebenarnya ini fitur untuk menghasilkan gambar baru, tetapi tampaknya dipakai dalam arti memodifikasi gambar yang sudah ada
    Model multimodal seperti Qwen3-VL-30B-A3B cukup bagus dalam mengedit gambar yang ada. imagegpt.com juga lumayan, tetapi saya tidak tahu model apa yang dipakainya
    • Setelah menerima umpan balik seperti ini beberapa kali, saya jadi merasa navigation bar di bagian atas harus dibuat lebih menonjol
      Sebagai catatan, Qwen3-VL bukan model untuk generasi atau editing gambar, melainkan model penalaran gambar
      Kemungkinan mereka memakai Qwen-Image-Edit di backend
    • Di situs yang saya lihat, itu tampak seperti mengedit gambar yang sudah ada
      Misalnya jika diberi prompt “tambahkan rambut pada pria botak”, hasilnya adalah versi modifikasi dari gambar asli
      Secara teknis itu memang proses menghasilkan gambar baru, tetapi menurut saya konsepnya mirip Save As di Photoshop
  • Tautan yang sebenarnya adalah https://genai-showdown.specr.net/image-editing
    • Benar, ini tautan untuk editing. Yang satunya lagi untuk text-to-image
  • Saya menduga model-model itu secara internal membuat beberapa gambar lalu hanya menampilkan hasil terbaik
    GPT-4o punya temperature rendah sehingga lebih konsisten tetapi kurang kreatif, sedangkan Midjourney memakai temperature lebih tinggi untuk menghasilkan latar belakang dan tekstur yang kaya
    Nada sepia pada 4o mungkin juga hasil pascaproses
    Dalam praktiknya, kemungkinan besar ada alur kerja multi-tahap untuk memoles gambar akhir
    • Jika pernah menjalankan model gambar sendiri secara lokal, kita akan tahu bahwa sebagian besar model yang dihosting tidak membuat beberapa kali, melainkan hanya sekali jalan
      Namun model berbasis LLM memang sering memakai penulisan ulang prompt (prompt rewriting)
      Kasus DALL·E 3 dijelaskan dengan baik di tulisan ini
    • Akan lebih menarik kalau mereka mempublikasikan jumlah percobaan generasi dan hasil untuk tiap prompt
  • Saya langsung upvote saat melihat “Alexander the Great on a Hippity Hop”
    • Saya juga sudah benar-benar lupa dengan mainan itu, tetapi melihat ini membuat kenangan masa kecil kembali muncul
    • Meski begitu, saya lebih suka gambar chimera kuda
  • Kalau ingin membandingkan model gambar lewat pengujian langsung, bisa mencobanya gratis di BrandImageGen.com
    Saya sedang menunggu umpan balik dari para pendaftar
  • Ada yang bertanya di mana meme “jangan menggambar gajah hijau”, lalu menemukan bahwa itu diusulkan dalam diskusi GitHub
  • Seseorang memposting tulisan yang berisi ulasan perbandingan beberapa alat pembuat gambar
    Tautan Generative AI Review
  • Berkat “Editing Showdown”, saya jadi pertama kali tahu tentang model Seedream
    Namun saya masih belum benar-benar paham bagaimana struktur beberapa kali percobaan lalu dievaluasi oleh LLM lain itu bekerja. Bukankah akurasinya sendiri akan terbatas?
    • Di FAQ, kriteria penilaiannya dijelaskan dengan jelas
      Dengan metode PASS/FAIL, jika sama sekali gagal menghasilkan gambar yang sesuai prompt, maka dianggap gagal
      Konsepnya seperti tes Pictionary: “kalau diperlihatkan ke orang acak di jalan, apakah mereka bisa menebak prompt-nya?”
      Penilaian akhir ditentukan secara manual berdasarkan kriteria yang jelas
    • LLM menilai LLM lain adalah standar industri
      Anda tidak bisa mengurung penilai manusia dalam kotak lalu menyuruh mereka menilai 7600 hasil
      Tentu penilaian LLM juga tidak sempurna, tetapi dalam hal keterbandingan dan konsistensi ia lebih baik daripada manusia
      Selama ini dipakai bukan sebagai target optimasi melainkan hanya sebagai termometer performa, seharusnya tidak masalah besar
      Tetapi jika dijadikan sasaran optimasi, bisa muncul hasil aneh seperti pada GPT-5