- Qwen-Image-Edit adalah model perluasan khusus pengeditan gambar berbasis Qwen-Image
- Memiliki arsitektur yang mengirim gambar masukan secara bersamaan ke Qwen2.5-VL dan VAE Encoder, sehingga mendukung baik pengeditan semantik maupun tampilan visual
- Fitur pengeditan teks sangat kuat, memungkinkan modifikasi langsung dalam bahasa Mandarin dan Inggris sambil mempertahankan font, ukuran, dan gaya
- Telah mencapai kinerja mutakhir (SOTA) di berbagai benchmark, sehingga memantapkan posisinya sebagai model dasar yang kuat untuk pengeditan gambar
- Dirilis sebagai open source dengan lisensi Apache 2.0, sehingga pengembang dan peneliti dapat memanfaatkannya secara bebas
Pengenalan
- Qwen-Image-Edit adalah model yang mendukung pengeditan gambar dengan memperluas kemampuan rendering teks dari Qwen-Image
- Memiliki struktur yang mengirim input gambar secara bersamaan ke kontrol semantik (Qwen2.5-VL) dan kontrol tampilan visual (VAE Encoder)
- Memiliki keunggulan mendukung pengeditan teks presisi sekaligus pengeditan semantik dan tampilan visual
Fitur utama
- Pengeditan semantik & tampilan visual: Mendukung perubahan semantik seperti penambahan, penghapusan, rotasi objek, dan transformasi gaya, serta pengeditan tampilan visual yang hanya mengubah area tertentu
- Pengeditan teks presisi: Dapat langsung mengedit bahasa Inggris dan Mandarin sambil mempertahankan font dan gaya asli
- Keunggulan performa: Mencapai performa mutakhir di banyak benchmark publik
Mulai cepat
- Dapat digunakan melalui library
diffusers dari Hugging Face
- Dalam kode contoh, dilakukan pengubahan warna kelinci menjadi ungu dan latar belakang menjadi cahaya flash
- Dapat dijalankan secara efisien dengan akselerasi CUDA dan dukungan
torch.bfloat16
Contoh demo (Showcase)
- Pengeditan semantik: Memungkinkan pembuatan IP karakter, rotasi objek (90 derajat, 180 derajat), dan transformasi gaya (misalnya gaya Ghibli)
- Pengeditan tampilan visual: Dapat melakukan penambahan papan tanda, penghapusan rambut, perubahan warna teks tertentu, penggantian latar belakang, perubahan pakaian, dan lain-lain secara presisi
- Pengeditan teks: Dapat mengoreksi secara akurat teks besar maupun kecil pada poster berbahasa Inggris dan Mandarin
- Rantai pengeditan berurutan: Mendemonstrasikan kasus memperbaiki kesalahan huruf pada karya kaligrafi secara bertahap hingga menghasilkan versi yang lengkap
Skenario aplikasi
- Perluasan IP merek: Diperkenalkan contoh pembuatan emotikon MBTI berbasis karakter Capybara
- Seni dan kreasi: Membuka kemungkinan pembuatan avatar virtual melalui berbagai transformasi gaya pada potret
- Pemanfaatan industri: Mendukung pengeditan detail, termasuk menghasilkan efek refleksi secara alami saat menyisipkan papan penunjuk
Lisensi
- Dirilis dengan lisensi Apache 2.0 sehingga dapat digunakan, dimodifikasi, dan didistribusikan secara bebas
Belum ada komentar.