- Qwen-Image adalah model generasi gambar berbasis MMDiT 20B parameter dengan keunggulan pada rendering teks native dan penyuntingan gambar presisi
- Mencapai akurasi tinggi dan kualitas visual yang baik pada representasi karakter kompleks dari berbagai bahasa, termasuk alfabet dan Hanzi
- Mencapai performa terbaik dalam kelasnya di berbagai benchmark publik (GenEval, DPG, OneIG-Bench, dan lain-lain), serta memiliki kemampuan pembuatan teks yang unggul
- Pada demo nyata, berhasil merepresentasikan dengan tepat teks multibahasa, poster, PPT, ilustrasi, dan lain-lain dengan tata letak kompleks serta berbagai gaya
- Mendukung fitur edit seperti perubahan gaya, penambahan/penghapusan objek, deskripsi detail, perubahan pose, dan berfokus pada perluasan ekosistem open source
Pengenalan dan Fitur Utama
- Qwen-Image adalah model dasar pembuatan gambar berbasis MMDiT berdasarkan 20B parameter yang dioptimalkan untuk rendering teks kompleks dan penyuntingan gambar presisi
- Pengalaman model terbaru dapat dicoba di Qwen Chat
Fitur Utama
- Rendering teks unggul: Mendukung tata letak multi-baris, pemahaman makna tingkat paragraf, dan ekspresi detail
- Mendukung dengan fidelity tinggi baik untuk sistem berbasis alfabet maupun karakter logografis seperti Hanzi
- Penyuntingan gambar konsisten: Melalui pelatihan multitugas yang ditingkatkan, menjaga akurasi semantik dan realisme visual secara bersamaan
- Performa benchmark yang kuat: Mencapai performa teratas di kelasnya untuk tugas generasi dan penyuntingan di berbagai benchmark publik
- Di area pembuatan dan penyuntingan teks, mencatat hasil unggul pada LongText-Bench, ChineseWord, TextCraft, dan lain-lain
- Dapat digunakan secara luas untuk kebutuhan kreatif seperti kreasi, desain, dan storytelling
Kinerja dan Benchmark
- Qwen-Image mencapai performa SOTA terbaru (state-of-the-art) di semua benchmark, termasuk GenEval, DPG, OneIG-Bench (pembuatan gambar umum), GEdit, ImgEdit, GSO (penyuntingan)
- Terutama pada pembuatan teks Mandarin, model ini melampaui model terbaik sebelumnya dengan selisih besar
- Dengan menggabungkan kapabilitas umum yang luas dan rendering teks yang akurat, Qwen-Image menempatkan diri sebagai model pemimpin dalam pembuatan gambar
Contoh Demo
Ekspresi Teks Mandarin
- Berdasarkan prompt contoh, berhasil menampilkan gaya animasi Miyazaki sekaligus mengekspresikan dengan tepat teks nyata “云存储”, “云计算”, “云模型” serta karakter Hanzi khusus (“千问”)
- Pose dan ekspresi karakter, serta kedalaman di dalam adegan juga direalisasikan secara alami
Ekspresi Paralel Hanzi yang Kompleks
- Menghadirkan detail-detail halus seperti pasangan kalimat berpasangan, kaligrafi brushwork, hingga ornamen bergaya Qinghua dengan sangat teliti
- Bentuk tulisan, tata letak, dan gambar (misalnya 岳阳楼) juga direproduksi sangat mirip dengan aslinya
Teks Inggris & Multi-baris
- Teks pada berbagai posisi seperti rak buku, papan pengumuman, dan poster direfleksikan secara detail
- Mulai dari “New Arrivals This Week” hingga kalimat pendek di sampul buku, mereplikasi font dan tata letak yang realistis
Infografik Bahasa Inggris yang Kompleks
- Setiap submodul dipisahkan secara tepat hingga ikon+judul+paragraf penjelasan dan ditempatkan sesuai posisinya
- Infografik kompleks bertema “Habits for Emotional Wellbeing” juga diselesaikan dengan karya seni yang natural dan komposisi yang seimbang
Teks Kecil/Panjang
- Dapat mengimplementasikan teks tulisan tangan panjang secara detail hingga area dalam gambar kurang dari 1/10
- Banyak kalimat juga direplikasi secara presisi, termasuk tulisan tangan, tata letak, dan line break
Campuran Multibahasa
- Menghasilkan tulisan tangan bahasa Inggris dan Mandarin secara bersamaan dalam satu gambar
- Dapat memproduksi teks secara alami sesuai dengan perpindahan bahasa pada prompt
Pembuatan Poster
- Pada poster film, teks dan elemen visual seperti subjudul, daftar pemeran, sutradara, dan info peluncuran dipadukan secara fleksibel dalam berbagai gaya seperti Sci-Fi dan desain grafis
Contoh PPT Bahasa Korea
- Secara konsisten menghasilkan gaya PPT AI/perusahaan terbaru, termasuk logo Alibaba, judul utama, subjudul, penempatan gambar karya seni, font kaligrafi, dan penjelasan detail
Pembuatan Gambar dan Penyuntingan Umum
- Mendukung berbagai gaya seni seperti fotorealistik, impresionis, anime, dan minimalis, menyediakan utilisasi kreatif yang kaya
- Mendukung beragam perintah penyuntingan gambar praktis seperti perubahan gaya, penambahan/penghapusan objek, peningkatan detail, penyuntingan teks, dan penyesuaian pose tubuh
Kesimpulan
- Qwen-Image berfokus pada perluasan cakrawala pembuatan gambar, penurunan hambatan teknis dalam produksi konten visual, dan dorongan pemanfaatan kreatif
- Berfokus pada kolaborasi komunitas, keterbukaan, dan pembangunan ekosistem AI generatif yang berkelanjutan
- Merencanakan peningkatan fitur dan perluasan ekosistem terbuka dengan mengakomodasi penggunaan dan umpan balik nyata dari pengguna
Belum ada komentar.