18 poin oleh GN⁺ 2025-08-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • Qwen-Image-Edit adalah model perluasan khusus pengeditan gambar berbasis Qwen-Image
  • Memiliki arsitektur yang mengirim gambar masukan secara bersamaan ke Qwen2.5-VL dan VAE Encoder, sehingga mendukung baik pengeditan semantik maupun tampilan visual
  • Fitur pengeditan teks sangat kuat, memungkinkan modifikasi langsung dalam bahasa Mandarin dan Inggris sambil mempertahankan font, ukuran, dan gaya
  • Telah mencapai kinerja mutakhir (SOTA) di berbagai benchmark, sehingga memantapkan posisinya sebagai model dasar yang kuat untuk pengeditan gambar
  • Dirilis sebagai open source dengan lisensi Apache 2.0, sehingga pengembang dan peneliti dapat memanfaatkannya secara bebas

Pengenalan

  • Qwen-Image-Edit adalah model yang mendukung pengeditan gambar dengan memperluas kemampuan rendering teks dari Qwen-Image
  • Memiliki struktur yang mengirim input gambar secara bersamaan ke kontrol semantik (Qwen2.5-VL) dan kontrol tampilan visual (VAE Encoder)
  • Memiliki keunggulan mendukung pengeditan teks presisi sekaligus pengeditan semantik dan tampilan visual

Fitur utama

  • Pengeditan semantik & tampilan visual: Mendukung perubahan semantik seperti penambahan, penghapusan, rotasi objek, dan transformasi gaya, serta pengeditan tampilan visual yang hanya mengubah area tertentu
  • Pengeditan teks presisi: Dapat langsung mengedit bahasa Inggris dan Mandarin sambil mempertahankan font dan gaya asli
  • Keunggulan performa: Mencapai performa mutakhir di banyak benchmark publik

Mulai cepat

  • Dapat digunakan melalui library diffusers dari Hugging Face
  • Dalam kode contoh, dilakukan pengubahan warna kelinci menjadi ungu dan latar belakang menjadi cahaya flash
  • Dapat dijalankan secara efisien dengan akselerasi CUDA dan dukungan torch.bfloat16

Contoh demo (Showcase)

  • Pengeditan semantik: Memungkinkan pembuatan IP karakter, rotasi objek (90 derajat, 180 derajat), dan transformasi gaya (misalnya gaya Ghibli)
  • Pengeditan tampilan visual: Dapat melakukan penambahan papan tanda, penghapusan rambut, perubahan warna teks tertentu, penggantian latar belakang, perubahan pakaian, dan lain-lain secara presisi
  • Pengeditan teks: Dapat mengoreksi secara akurat teks besar maupun kecil pada poster berbahasa Inggris dan Mandarin
  • Rantai pengeditan berurutan: Mendemonstrasikan kasus memperbaiki kesalahan huruf pada karya kaligrafi secara bertahap hingga menghasilkan versi yang lengkap

Skenario aplikasi

  • Perluasan IP merek: Diperkenalkan contoh pembuatan emotikon MBTI berbasis karakter Capybara
  • Seni dan kreasi: Membuka kemungkinan pembuatan avatar virtual melalui berbagai transformasi gaya pada potret
  • Pemanfaatan industri: Mendukung pengeditan detail, termasuk menghasilkan efek refleksi secara alami saat menyisipkan papan penunjuk

Lisensi

  • Dirilis dengan lisensi Apache 2.0 sehingga dapat digunakan, dimodifikasi, dan didistribusikan secara bebas

Belum ada komentar.

Belum ada komentar.