1 poin oleh GN⁺ 2025-10-30 | 1 komentar | Bagikan ke WhatsApp
  • Konten dengan format yang membandingkan hasil dari berbagai alat penyuntingan gambar AI generatif
  • Disusun untuk membandingkan secara visual hasil suntingan yang dihasilkan tiap alat terhadap masukan yang sama
  • Di halaman ditampilkan teks “Loading editing comparisons...”, yang menunjukkan bahwa perbandingan penyuntingan sedang dimuat
  • Selain judul, tidak ada nama alat, kriteria perbandingan, penjelasan hasil, dan sebagainya yang spesifik
  • Secara keseluruhan tampak seperti antarmuka untuk membandingkan performa penyuntingan gambar AI, tetapi detailnya tidak ada di sumber asli

Gambaran halaman

  • Judulnya adalah “Generative AI Image Editing Showdown”, yang mengisyaratkan perbandingan beberapa model penyuntingan gambar AI
  • Di isi hanya ada teks “Loading editing comparisons...”, sehingga hasil perbandingan maupun penjelasan tidak disertakan
  • Teks, data, gambar, daftar alat, kriteria evaluasi, dan lain-lain tambahan tidak ada di sumber asli

Keterbatasan informasi yang tersedia

  • Di sumber asli tidak ada penjelasan spesifik tentang hasil suntingan atau isi perbandingan
  • Karena itu, tujuan perbandingan, model AI yang digunakan, maupun metode evaluasi tidak disebutkan
  • Secara keseluruhan konten masih dalam keadaan dimuat, sehingga tidak ada informasi substantif yang tersedia

1 komentar

 
GN⁺ 2025-10-30
Komentar Hacker News
  • Semua orang meremehkan Gemini 2.5 Flash Image / Nano Banana
    Model ini jauh lebih kuat daripada model lain, dengan harga per gambar yang sama, dan berkat text encoder-nya ia bisa menangani prompt yang jauh lebih kompleks dan bernuansa
    Saya sudah membagikan contoh lewat paket Python gemimg buatan saya, dan sedang menyiapkan tulisan blog dengan lebih banyak contoh
    Di AI Studio milik Google, tersedia juga generasi gratis dengan kontrol rasio
    Meski begitu, cukup mengejutkan bahwa Seedream 4.0 menang dalam pengujian kali ini

    • Sebenarnya Nano Banana sempat cukup viral saat pertama dirilis
      Jika tidak menghitung fitur bawaan ChatGPT atau tren gaya Ghibli, saya rasa ini salah satu model pengeditan gambar yang paling dikenal
    • Seedream unggul dalam hal kesetiaan pada prompt, tetapi cenderung menyebabkan sedikit perubahan gradasi warna
      Bagi penggunaan saya itu bukan masalah besar, tetapi bagi orang yang mementingkan konsistensi warna, Nano Banana mungkin lebih baik
    • Saat menggunakan Nano Banana, sekitar setengah waktu AI Studio menampilkan kegagalan tanpa alasan
      Ini juga bukan permintaan yang berada di batas isu hak cipta, tetapi error seperti ini cukup sering terjadi
      Meski begitu, saat berhasil hasilnya sangat mengesankan
    • Saya memakai Nano Banana untuk merapikan foto dapur saya yang berantakan, tetapi awalnya benar-benar gagal
      Pada percobaan kedua, saya lebih dulu melakukan analisis gambar untuk mengambil daftar barang yang berantakan, lalu menghapusnya lewat prompt, dan hasilnya jauh lebih baik
      Pada akhirnya saya kembali merasakan pentingnya prompt engineering
    • Gemini sangat bagus saat bekerja dengan baik, tetapi kadang menghasilkan sesuatu yang benar-benar melenceng dan tidak cocok dengan prompt apa pun
      Flux sangat bagus sampai terasa mengejutkan, tetapi kebanyakan orang, termasuk saya, pada akhirnya tetap memakai model yang sudah akrab seperti ChatGPT atau Gemini sebagai pilihan utama
  • Perbandingan seperti ini jauh lebih praktis daripada chart benchmark
    Saya sering memakai Nano Banana, tetapi model ini lemah untuk pengeditan bangunan eksterior atau lanskap
    Hal seperti trotoar, saluran drainase, dan pencocokan warna nyaris mustahil dilakukan

    • Saya bereksperimen mengubah foto siang menjadi malam dengan Qwen Image Edit, dan kebanyakan model gagal menangkap penyelarasan edge
      Nano Banana juga tidak akurat dalam menangani batas, sehingga fotonya jadi bergeser
  • Dari sudut pandang seseorang yang sudah menetapkan tolok ukur pada 2022, demo-demo sekarang terasa luar biasa sampai tidak bisa dibandingkan dengan era SD1·2·3
    Rasanya kita kini memasuki zaman ketika model benar-benar memahami prompt dan gambar
    Ini adalah masa ketika engineering terus berkembang dan kreativitas meluas secara eksplosif

  • Mengubah prompt atau jumlah percobaan, lalu hanya menampilkan hasil yang paling disukai, membuat objektivitas pengujian menjadi kabur
    Diperlukan kondisi yang seragam, seperti 5 kali generasi untuk semua model dengan prompt dan seed yang sama
    Misalnya, Gemini 2.5 Flash diberi kebebasan berlebihan pada pengujian “Girl with Pearl Earring”,
    sementara OpenAI gpt-image-1 justru dinilai gagal meski menghasilkan hasil yang jauh lebih baik dengan percobaan yang lebih sedikit

    • Sebagai catatan, contoh gpt-image-1 itu untuk pengujian “You Only Move Twice”
    • Malah kalau diadakan kompetisi “gambar terburuk”, mungkin akan lebih jelas model mana yang tidak terlalu membuat frustrasi
  • Dalam tulisan yang saya unggah di blog Replicate, saya membandingkan langsung beberapa model
    Di antaranya, Qwen Image Edit adalah yang paling murah dan cepat, sekaligus menangani sebagian besar tugas edit dengan baik
    Jika saya membuat aplikasi pengeditan gambar, kemungkinan saya akan memilih model ini

  • Perbandingannya sendiri menarik, tetapi gambar jerapah di bagian akhir sebenarnya hanya membuat tubuhnya melengkung, bukan menjadi lebih pendek
    Meski begitu, saya jadi lebih sering memilih hasil Gemini, dan akan lebih baik kalau ada penilaian skala 10 poin alih-alih pass/fail

    • Ungkapan “jerapah yang melengkung dengan canggung” sangat lucu
      Kalau benar ada pameran seperti itu, saya pasti ingin datang
  • Belakangan ini saya hampir tidak pernah membuat gambar AI
    Sekitar satu setengah tahun lalu sempat populer menjalankan model sendiri secara lokal, tetapi sekarang kebanyakan sudah pindah ke berbasis cloud
    Meski begitu, dalam pengeditan foto nyata masih terasa ada tekstur yang tidak alami
    Misalnya rambut manusia terlihat terlalu berkilau, atau pohon tampak seperti plastik

    • Ukuran model gambar dan kebutuhan komputasinya menjadi terlalu besar sehingga sulit untuk self-hosting secara pribadi
      Flux Kontext memang bisa dijalankan secara lokal, tetapi harus menghasilkan dengan lambat menggunakan model terkuantisasi, jadi tidak efisien
      Lagi pula, karena gambar bisa dibuat gratis di ChatGPT, alasan untuk tetap memaksa lokal jadi semakin berkurang
      Dalam pengujian rambut, hanya Gemini 2.5 Flash yang benar-benar cocok dalam warna dan tekstur,
      sementara Seedream 4 punya masalah seluruh color grading berubah, jadi saya tidak terlalu menyukainya
  • Saya rasa akan bagus jika Reve juga dimasukkan ke dalam pengujian

    • Dengan Nano Banana, mengubah arah pandang karakter tidak berjalan baik, tetapi Reve memberikan hasil yang sempurna pada percobaan pertama
      Reve menghapus benda yang dipegang karakter, mengalihkan pandangannya ke kamera, dan bahkan menyesuaikan posenya secara alami
      Selain itu, keempat hasilnya cukup berkualitas sampai semuanya layak dipakai
      Setelah itu saya membaca tulisan pengenalan model Reve dan langsung memutuskan untuk mendaftar
    • Terima kasih atas rekomendasinya, nanti akan saya tambahkan ke daftar pengujian
    • Terima kasih atas tips yang bagus
  • Upayanya bagus, tetapi prompt yang salah seperti “menara di dalam gambar miring ke kanan” justru membuat model semakin memiringkannya

    • Kalimat itu bukan prompt input yang sebenarnya, melainkan kalimat pembuka
      Karena prompt disesuaikan per model, jumlah percobaannya jadi berbeda
  • Secara keseluruhan ini pengujian yang menyenangkan
    Ada kritik bahwa prompt-nya tidak sempurna, tetapi justru terasa realistis karena berada pada tingkat yang kemungkinan akan dimasukkan pengguna biasa

    • Saya sudah menangani prompt sejak era SD 1.5, jadi saya paham variasi prompt yang dibutuhkan tiap model
      Seperti dijelaskan di FAQ, saya mencoba beberapa versi prompt agar model tidak terpaku pada kata tertentu
      Misalnya, kalimat perintah seperti “Turn on the lights” bukan sekadar instruksi biasa,
      tetapi prompt untuk menguji kemampuan pemahaman multimodal LLM
      Kalimat seperti ini sama sekali tidak akan berhasil pada model tradisional seperti SDXL