Qwen-Image-Edit - Model khusus pengeditan gambar diperkenalkan

(huggingface.co)

18 poin oleh GN⁺ 2025-08-21 | Belum ada komentar. | Bagikan ke WhatsApp

Qwen-Image-Edit adalah model perluasan khusus pengeditan gambar berbasis Qwen-Image
Memiliki arsitektur yang mengirim gambar masukan secara bersamaan ke Qwen2.5-VL dan VAE Encoder, sehingga mendukung baik pengeditan semantik maupun tampilan visual
Fitur pengeditan teks sangat kuat, memungkinkan modifikasi langsung dalam bahasa Mandarin dan Inggris sambil mempertahankan font, ukuran, dan gaya
Telah mencapai kinerja mutakhir (SOTA) di berbagai benchmark, sehingga memantapkan posisinya sebagai model dasar yang kuat untuk pengeditan gambar
Dirilis sebagai open source dengan lisensi Apache 2.0, sehingga pengembang dan peneliti dapat memanfaatkannya secara bebas

Pengenalan

Qwen-Image-Edit adalah model yang mendukung pengeditan gambar dengan memperluas kemampuan rendering teks dari Qwen-Image
Memiliki struktur yang mengirim input gambar secara bersamaan ke kontrol semantik (Qwen2.5-VL) dan kontrol tampilan visual (VAE Encoder)
Memiliki keunggulan mendukung pengeditan teks presisi sekaligus pengeditan semantik dan tampilan visual

Pengeditan semantik & tampilan visual: Mendukung perubahan semantik seperti penambahan, penghapusan, rotasi objek, dan transformasi gaya, serta pengeditan tampilan visual yang hanya mengubah area tertentu
Pengeditan teks presisi: Dapat langsung mengedit bahasa Inggris dan Mandarin sambil mempertahankan font dan gaya asli
Keunggulan performa: Mencapai performa mutakhir di banyak benchmark publik

Dapat digunakan melalui library diffusers dari Hugging Face
Dalam kode contoh, dilakukan pengubahan warna kelinci menjadi ungu dan latar belakang menjadi cahaya flash
Dapat dijalankan secara efisien dengan akselerasi CUDA dan dukungan torch.bfloat16

Pengeditan semantik: Memungkinkan pembuatan IP karakter, rotasi objek (90 derajat, 180 derajat), dan transformasi gaya (misalnya gaya Ghibli)
Pengeditan tampilan visual: Dapat melakukan penambahan papan tanda, penghapusan rambut, perubahan warna teks tertentu, penggantian latar belakang, perubahan pakaian, dan lain-lain secara presisi
Pengeditan teks: Dapat mengoreksi secara akurat teks besar maupun kecil pada poster berbahasa Inggris dan Mandarin
Rantai pengeditan berurutan: Mendemonstrasikan kasus memperbaiki kesalahan huruf pada karya kaligrafi secara bertahap hingga menghasilkan versi yang lengkap

Perluasan IP merek: Diperkenalkan contoh pembuatan emotikon MBTI berbasis karakter Capybara
Seni dan kreasi: Membuka kemungkinan pembuatan avatar virtual melalui berbagai transformasi gaya pada potret
Pemanfaatan industri: Mendukung pengeditan detail, termasuk menghasilkan efek refleksi secara alami saat menyisipkan papan penunjuk

Dirilis dengan lisensi Apache 2.0 sehingga dapat digunakan, dimodifikasi, dan didistribusikan secara bebas