Pertarungan Penyuntingan Gambar AI Generatif
(genai-showdown.specr.net)- Konten dengan format yang membandingkan hasil dari berbagai alat penyuntingan gambar AI generatif
- Disusun untuk membandingkan secara visual hasil suntingan yang dihasilkan tiap alat terhadap masukan yang sama
- Di halaman ditampilkan teks “Loading editing comparisons...”, yang menunjukkan bahwa perbandingan penyuntingan sedang dimuat
- Selain judul, tidak ada nama alat, kriteria perbandingan, penjelasan hasil, dan sebagainya yang spesifik
- Secara keseluruhan tampak seperti antarmuka untuk membandingkan performa penyuntingan gambar AI, tetapi detailnya tidak ada di sumber asli
Gambaran halaman
- Judulnya adalah “Generative AI Image Editing Showdown”, yang mengisyaratkan perbandingan beberapa model penyuntingan gambar AI
- Di isi hanya ada teks “Loading editing comparisons...”, sehingga hasil perbandingan maupun penjelasan tidak disertakan
- Teks, data, gambar, daftar alat, kriteria evaluasi, dan lain-lain tambahan tidak ada di sumber asli
Keterbatasan informasi yang tersedia
- Di sumber asli tidak ada penjelasan spesifik tentang hasil suntingan atau isi perbandingan
- Karena itu, tujuan perbandingan, model AI yang digunakan, maupun metode evaluasi tidak disebutkan
- Secara keseluruhan konten masih dalam keadaan dimuat, sehingga tidak ada informasi substantif yang tersedia
1 komentar
Komentar Hacker News
Semua orang meremehkan Gemini 2.5 Flash Image / Nano Banana
Model ini jauh lebih kuat daripada model lain, dengan harga per gambar yang sama, dan berkat text encoder-nya ia bisa menangani prompt yang jauh lebih kompleks dan bernuansa
Saya sudah membagikan contoh lewat paket Python gemimg buatan saya, dan sedang menyiapkan tulisan blog dengan lebih banyak contoh
Di AI Studio milik Google, tersedia juga generasi gratis dengan kontrol rasio
Meski begitu, cukup mengejutkan bahwa Seedream 4.0 menang dalam pengujian kali ini
Jika tidak menghitung fitur bawaan ChatGPT atau tren gaya Ghibli, saya rasa ini salah satu model pengeditan gambar yang paling dikenal
Bagi penggunaan saya itu bukan masalah besar, tetapi bagi orang yang mementingkan konsistensi warna, Nano Banana mungkin lebih baik
Ini juga bukan permintaan yang berada di batas isu hak cipta, tetapi error seperti ini cukup sering terjadi
Meski begitu, saat berhasil hasilnya sangat mengesankan
Pada percobaan kedua, saya lebih dulu melakukan analisis gambar untuk mengambil daftar barang yang berantakan, lalu menghapusnya lewat prompt, dan hasilnya jauh lebih baik
Pada akhirnya saya kembali merasakan pentingnya prompt engineering
Flux sangat bagus sampai terasa mengejutkan, tetapi kebanyakan orang, termasuk saya, pada akhirnya tetap memakai model yang sudah akrab seperti ChatGPT atau Gemini sebagai pilihan utama
Perbandingan seperti ini jauh lebih praktis daripada chart benchmark
Saya sering memakai Nano Banana, tetapi model ini lemah untuk pengeditan bangunan eksterior atau lanskap
Hal seperti trotoar, saluran drainase, dan pencocokan warna nyaris mustahil dilakukan
Nano Banana juga tidak akurat dalam menangani batas, sehingga fotonya jadi bergeser
Dari sudut pandang seseorang yang sudah menetapkan tolok ukur pada 2022, demo-demo sekarang terasa luar biasa sampai tidak bisa dibandingkan dengan era SD1·2·3
Rasanya kita kini memasuki zaman ketika model benar-benar memahami prompt dan gambar
Ini adalah masa ketika engineering terus berkembang dan kreativitas meluas secara eksplosif
Mengubah prompt atau jumlah percobaan, lalu hanya menampilkan hasil yang paling disukai, membuat objektivitas pengujian menjadi kabur
Diperlukan kondisi yang seragam, seperti 5 kali generasi untuk semua model dengan prompt dan seed yang sama
Misalnya, Gemini 2.5 Flash diberi kebebasan berlebihan pada pengujian “Girl with Pearl Earring”,
sementara OpenAI gpt-image-1 justru dinilai gagal meski menghasilkan hasil yang jauh lebih baik dengan percobaan yang lebih sedikit
Dalam tulisan yang saya unggah di blog Replicate, saya membandingkan langsung beberapa model
Di antaranya, Qwen Image Edit adalah yang paling murah dan cepat, sekaligus menangani sebagian besar tugas edit dengan baik
Jika saya membuat aplikasi pengeditan gambar, kemungkinan saya akan memilih model ini
Perbandingannya sendiri menarik, tetapi gambar jerapah di bagian akhir sebenarnya hanya membuat tubuhnya melengkung, bukan menjadi lebih pendek
Meski begitu, saya jadi lebih sering memilih hasil Gemini, dan akan lebih baik kalau ada penilaian skala 10 poin alih-alih pass/fail
Kalau benar ada pameran seperti itu, saya pasti ingin datang
Belakangan ini saya hampir tidak pernah membuat gambar AI
Sekitar satu setengah tahun lalu sempat populer menjalankan model sendiri secara lokal, tetapi sekarang kebanyakan sudah pindah ke berbasis cloud
Meski begitu, dalam pengeditan foto nyata masih terasa ada tekstur yang tidak alami
Misalnya rambut manusia terlihat terlalu berkilau, atau pohon tampak seperti plastik
Flux Kontext memang bisa dijalankan secara lokal, tetapi harus menghasilkan dengan lambat menggunakan model terkuantisasi, jadi tidak efisien
Lagi pula, karena gambar bisa dibuat gratis di ChatGPT, alasan untuk tetap memaksa lokal jadi semakin berkurang
Dalam pengujian rambut, hanya Gemini 2.5 Flash yang benar-benar cocok dalam warna dan tekstur,
sementara Seedream 4 punya masalah seluruh color grading berubah, jadi saya tidak terlalu menyukainya
Saya rasa akan bagus jika Reve juga dimasukkan ke dalam pengujian
Reve menghapus benda yang dipegang karakter, mengalihkan pandangannya ke kamera, dan bahkan menyesuaikan posenya secara alami
Selain itu, keempat hasilnya cukup berkualitas sampai semuanya layak dipakai
Setelah itu saya membaca tulisan pengenalan model Reve dan langsung memutuskan untuk mendaftar
Upayanya bagus, tetapi prompt yang salah seperti “menara di dalam gambar miring ke kanan” justru membuat model semakin memiringkannya
Karena prompt disesuaikan per model, jumlah percobaannya jadi berbeda
Secara keseluruhan ini pengujian yang menyenangkan
Ada kritik bahwa prompt-nya tidak sempurna, tetapi justru terasa realistis karena berada pada tingkat yang kemungkinan akan dimasukkan pengguna biasa
Seperti dijelaskan di FAQ, saya mencoba beberapa versi prompt agar model tidak terpaku pada kata tertentu
Misalnya, kalimat perintah seperti “Turn on the lights” bukan sekadar instruksi biasa,
tetapi prompt untuk menguji kemampuan pemahaman multimodal LLM
Kalimat seperti ini sama sekali tidak akan berhasil pada model tradisional seperti SDXL