- Sebagai model generasi berikutnya untuk pembuatan gambar, ia mewujudkan arsitektur tunggal yang mengintegrasikan pembuatan dan pengeditan teks-gambar
- Mendukung instruksi 1k token, sehingga dapat langsung membuat infografik kompleks seperti PPT, poster, dan komik
- Mewujudkan secara bersamaan penggambaran realistis yang detail berbasis resolusi 2K dan rendering teks yang akurat
- Dengan peringanan model, kecepatan inferensi ditingkatkan, serta mencatat performa unggul pada benchmark teks-ke-gambar maupun gambar-ke-gambar
- Melalui lima karakteristik utama—presisi (准), kompleksitas (多), estetika (美), realisme (真), dan keselarasan (齐)—model ini memaksimalkan efisiensi produksi konten visual profesional
Ikhtisar Qwen-Image-2.0
- Qwen-Image-2.0 adalah model fondasi pembuatan gambar generasi berikutnya yang mengadopsi arsitektur tunggal yang mengintegrasikan rendering teks dan pengeditan gambar
- Memproses instruksi 1k token untuk langsung membuat infografik profesional seperti PPT, poster, dan komik
- Mengekspresikan adegan realistis yang rinci seperti manusia, alam, dan arsitektur dalam resolusi 2K
- Dengan integrasi pemahaman dan pembuatan teks, pembuatan dan pengeditan gambar dilakukan dalam satu mode
- Arsitektur model yang diringankan memastikan kecepatan inferensi yang tinggi
- Dalam blind test AI Arena, model ini mencatat performa unggul pada tugas teks-ke-gambar dan gambar-ke-gambar
Proses perkembangan model
- Seri Qwen-Image telah berkembang dengan dua jalur secara paralel: jalur generasi dan jalur pengeditan
- Pada Agustus 2025, Qwen-Image memperkuat presisi rendering teks
- Pada Desember 2025, Qwen-Image-2512 meningkatkan detail dan fotorealisme
- Pada jalur pengeditan, kemampuan berkembang dari pengeditan gambar tunggal (Agustus) → pengeditan multi-gambar (September) → peningkatan konsistensi (Desember)
- Qwen-Image-2.0 menggabungkan kedua jalur itu menjadi satu model terpadu, menghasilkan performa unggul dalam generasi maupun pengeditan
Presisi (准) dan kompleksitas (多)
- Model ini secara akurat mewujudkan komposisi kompleks “gambar di dalam gambar”, sehingga meningkatkan efisiensi pembuatan PPT
- Sebagai contoh, model dapat membuat adegan gabungan dengan dua gambar orang yang sama disusun atas-bawah sambil menjaga konsistensi visual
- Melalui instruksi 1k token, model dapat merender infografik berstruktur multi-tahap secara lengkap, misalnya laporan A/B test
- Memungkinkan pembuatan materi visual setingkat laporan profesional yang mencakup elemen kompleks seperti tabel, grafik, angka, dan anotasi
- Dengan memanfaatkan pengetahuan dunia dari LLM, permintaan sederhana dapat secara otomatis diperluas menjadi prompt deskripsi yang rinci
- Contoh: permintaan “poster perjalanan dua hari di Hangzhou” dapat diubah menjadi susunan gaya, latar, dan teks yang detail
Estetika (美)
- Mewujudkan harmoni bentuk antara teks dan gambar
- Mereproduksi secara akurat gaya lukisan dan kaligrafi tradisional Tiongkok dengan komposisi padu puisi dan gambar
- Menampilkan beragam gaya huruf secara presisi, misalnya Shoujinti dan Xiaozhuan
- Sebagai contoh, model hampir sempurna mereproduksi lukisan tinta dengan puisi era Song atau "Lantingji Xu" karya Wang Xizhi dalam gaya Xiaozhuan
Realisme (真)
- Memperkuat kesan nyata melalui ekspresi presisi atas pantulan optik, material, dan perspektif
- Contoh: merender teks dengan akurat di atas material berbeda seperti papan tulis kaca, pakaian, dan sampul majalah
- Mewujudkan ekspresi terpadu pencahayaan, tekstur, dan material setingkat poster film
- Contoh: pada poster "Qian Deng Wen Xin", logam, hujan, dan tekstur kain berpadu secara alami
Keselarasan (齐)
- Pada struktur multi-teks seperti kalender, komik, dan infografik, penyelarasan dan tata letak disesuaikan secara otomatis
- Contoh: pada kalender Februari 2026, tanggal, penanggalan lunar, dan anotasi disejajarkan dengan akurat di dalam grid
- Teks balon dialog dalam komik disejajarkan ke tengah untuk menghasilkan alur percakapan yang natural
- Pada infografik OKR, blok teks dan panah disejajarkan otomatis serta dibedakan berdasarkan warna
Peningkatan fotorealisme
- Membedakan lebih dari 23 ragam warna hijau untuk mengekspresikan realisme ekologis hutan musim panas
- Tekstur daun, pantulan cahaya, kelembapan, hingga partikel di udara digambarkan secara rinci
- Mereproduksi secara presisi otot, ekspresi, dan tekstur tubuh manusia maupun hewan
- Contoh: pada adegan kuda menginjak manusia, ketegangan otot, tekstur kulit, hingga partikel debu digambarkan dengan detail
Fitur pengeditan gambar
- Sebagai model Omni yang mengintegrasikan generasi dan pengeditan, peningkatan di sisi generasi langsung tercermin pada pengeditan
- Dapat menyisipkan puisi dan teks ke atas gambar yang sudah ada
- Dapat menggabungkan tokoh dari dua gambar sambil menjaga kesesuaian pencahayaan dan bayangan secara alami
- Juga memungkinkan pengeditan campuran foto realistis dan karakter kartun
- Contoh: memberikan hasil integrasi yang natural pada foto komposit dua orang atau penyisipan karakter ke atas foto kota
Gambar header blog “Qwen Street”
- Dengan latar pemandangan jalan musim dingin di Beijing, dua toko melambangkan fungsi inti Qwen-Image-2.0
- Papan toko kaligrafi di kiri: “文字渲染”, bagian dalam bertuliskan “专业幻灯片 中英文海报 高级信息图”
- Papan toko bunga di kanan: “真实质感”, tanda di atas pintu “2k resolution”
- Papan tulis yang dipegang manusia salju di tengah: “Qwen-Image-2.0 正式发布”
- Di jalan tampak pengantar berkendara dengan tulisan “更小模型,更快速度”
Kesimpulan
- Qwen-Image-2.0 adalah model pembuatan gambar terpadu yang memiliki presisi, kompleksitas, estetika, realisme, dan keselarasan sekaligus
- Dengan mengaburkan batas antara teks dan gambar, model ini secara signifikan meningkatkan tingkat otomasi dalam pembuatan infografik profesional dan konten visual
- Saat digunakan untuk riset atau kreasi, disarankan mengutip Qwen-Image Technical Report (arXiv:2508.02324)
Belum ada komentar.