- Sebagai model generasi berikutnya untuk pembuatan gambar, ia mewujudkan arsitektur tunggal yang mengintegrasikan pembuatan dan pengeditan teks-gambar
- Mendukung instruksi 1k token, sehingga dapat langsung membuat infografik kompleks seperti PPT, poster, dan komik
- Mewujudkan secara bersamaan penggambaran realistis yang detail berbasis resolusi 2K dan rendering teks yang akurat
- Dengan peringanan model, kecepatan inferensi ditingkatkan, serta mencatat performa unggul pada benchmark teks-ke-gambar maupun gambar-ke-gambar
- Melalui lima karakteristik utama—presisi (准), kompleksitas (多), estetika (美), realisme (真), dan keselarasan (齐)—model ini memaksimalkan efisiensi produksi konten visual profesional
Ikhtisar Qwen-Image-2.0
- Qwen-Image-2.0 adalah model fondasi pembuatan gambar generasi berikutnya yang mengadopsi arsitektur tunggal yang mengintegrasikan rendering teks dan pengeditan gambar
- Memproses instruksi 1k token untuk langsung membuat infografik profesional seperti PPT, poster, dan komik
- Mengekspresikan adegan realistis yang rinci seperti manusia, alam, dan arsitektur dalam resolusi 2K
- Dengan integrasi pemahaman dan pembuatan teks, pembuatan dan pengeditan gambar dilakukan dalam satu mode
- Arsitektur model yang diringankan memastikan kecepatan inferensi yang tinggi
- Dalam blind test AI Arena, model ini mencatat performa unggul pada tugas teks-ke-gambar dan gambar-ke-gambar
Proses perkembangan model
- Seri Qwen-Image telah berkembang dengan dua jalur secara paralel: jalur generasi dan jalur pengeditan
- Pada Agustus 2025, Qwen-Image memperkuat presisi rendering teks
- Pada Desember 2025, Qwen-Image-2512 meningkatkan detail dan fotorealisme
- Pada jalur pengeditan, kemampuan berkembang dari pengeditan gambar tunggal (Agustus) → pengeditan multi-gambar (September) → peningkatan konsistensi (Desember)
- Qwen-Image-2.0 menggabungkan kedua jalur itu menjadi satu model terpadu, menghasilkan performa unggul dalam generasi maupun pengeditan
Presisi (准) dan kompleksitas (多)
- Model ini secara akurat mewujudkan komposisi kompleks “gambar di dalam gambar”, sehingga meningkatkan efisiensi pembuatan PPT
- Sebagai contoh, model dapat membuat adegan gabungan dengan dua gambar orang yang sama disusun atas-bawah sambil menjaga konsistensi visual
- Melalui instruksi 1k token, model dapat merender infografik berstruktur multi-tahap secara lengkap, misalnya laporan A/B test
- Memungkinkan pembuatan materi visual setingkat laporan profesional yang mencakup elemen kompleks seperti tabel, grafik, angka, dan anotasi
- Dengan memanfaatkan pengetahuan dunia dari LLM, permintaan sederhana dapat secara otomatis diperluas menjadi prompt deskripsi yang rinci
- Contoh: permintaan “poster perjalanan dua hari di Hangzhou” dapat diubah menjadi susunan gaya, latar, dan teks yang detail
Estetika (美)
- Mewujudkan harmoni bentuk antara teks dan gambar
- Mereproduksi secara akurat gaya lukisan dan kaligrafi tradisional Tiongkok dengan komposisi padu puisi dan gambar
- Menampilkan beragam gaya huruf secara presisi, misalnya Shoujinti dan Xiaozhuan
- Sebagai contoh, model hampir sempurna mereproduksi lukisan tinta dengan puisi era Song atau "Lantingji Xu" karya Wang Xizhi dalam gaya Xiaozhuan
Realisme (真)
- Memperkuat kesan nyata melalui ekspresi presisi atas pantulan optik, material, dan perspektif
- Contoh: merender teks dengan akurat di atas material berbeda seperti papan tulis kaca, pakaian, dan sampul majalah
- Mewujudkan ekspresi terpadu pencahayaan, tekstur, dan material setingkat poster film
- Contoh: pada poster "Qian Deng Wen Xin", logam, hujan, dan tekstur kain berpadu secara alami
Keselarasan (齐)
- Pada struktur multi-teks seperti kalender, komik, dan infografik, penyelarasan dan tata letak disesuaikan secara otomatis
- Contoh: pada kalender Februari 2026, tanggal, penanggalan lunar, dan anotasi disejajarkan dengan akurat di dalam grid
- Teks balon dialog dalam komik disejajarkan ke tengah untuk menghasilkan alur percakapan yang natural
- Pada infografik OKR, blok teks dan panah disejajarkan otomatis serta dibedakan berdasarkan warna
Peningkatan fotorealisme
- Membedakan lebih dari 23 ragam warna hijau untuk mengekspresikan realisme ekologis hutan musim panas
- Tekstur daun, pantulan cahaya, kelembapan, hingga partikel di udara digambarkan secara rinci
- Mereproduksi secara presisi otot, ekspresi, dan tekstur tubuh manusia maupun hewan
- Contoh: pada adegan kuda menginjak manusia, ketegangan otot, tekstur kulit, hingga partikel debu digambarkan dengan detail
Fitur pengeditan gambar
- Sebagai model Omni yang mengintegrasikan generasi dan pengeditan, peningkatan di sisi generasi langsung tercermin pada pengeditan
- Dapat menyisipkan puisi dan teks ke atas gambar yang sudah ada
- Dapat menggabungkan tokoh dari dua gambar sambil menjaga kesesuaian pencahayaan dan bayangan secara alami
- Juga memungkinkan pengeditan campuran foto realistis dan karakter kartun
- Contoh: memberikan hasil integrasi yang natural pada foto komposit dua orang atau penyisipan karakter ke atas foto kota
Gambar header blog “Qwen Street”
- Dengan latar pemandangan jalan musim dingin di Beijing, dua toko melambangkan fungsi inti Qwen-Image-2.0
- Papan toko kaligrafi di kiri: “文字渲染”, bagian dalam bertuliskan “专业幻灯片 中英文海报 高级信息图”
- Papan toko bunga di kanan: “真实质感”, tanda di atas pintu “2k resolution”
- Papan tulis yang dipegang manusia salju di tengah: “Qwen-Image-2.0 正式发布”
- Di jalan tampak pengantar berkendara dengan tulisan “更小模型,更快速度”
Kesimpulan
- Qwen-Image-2.0 adalah model pembuatan gambar terpadu yang memiliki presisi, kompleksitas, estetika, realisme, dan keselarasan sekaligus
- Dengan mengaburkan batas antara teks dan gambar, model ini secara signifikan meningkatkan tingkat otomasi dalam pembuatan infografik profesional dan konten visual
- Saat digunakan untuk riset atau kreasi, disarankan mengutip Qwen-Image Technical Report (arXiv:2508.02324)
1 komentar
Komentar Hacker News
Meme ini berasal dari insiden ketika presenter terkenal Tiongkok Kevin Tsai (蔡康永) mengenakan kostum dengan seekor kuda menempel di punggungnya saat acara penghargaan
Saat itu ia diterpa rumor dengan seorang pria bernama ‘Ma Qiren (马启仁)’, dan nama ini dalam bahasa Mandarin terdengar sama dengan ‘orang yang menunggang kuda (马骑人)’
Insiden ini menyebar di internet dan menjadi meme, jadi contoh “horse riding man” itu bukan sesuatu yang sepenuhnya muncul tanpa konteks
Meski begitu, gambarnya sendiri tetap memberi nuansa yang menyeramkan dan ganjil
tautan foto
Biasanya kebalikannya, yaitu ‘orang menunggang kuda’, lebih mudah, sedangkan ‘kuda menunggang orang’ adalah embedding yang lebih sulit
Dari prompt yang diterjemahkan, ada juga nuansa satiris seperti “tahun kuda menaklukkan insinyur kulit putih”
Saya tidak ingin melihat bagaimana SD1.5 akan menggambar ini
Jadi meskipun namanya terdengar seperti ‘orang yang menunggang kuda’, itu bukan terjemahan harfiah
Tulisan terkait: Horse Rides Astronaut Redux
Misalnya, perusahaan-perusahaan AS tampaknya akan khawatir kena reaksi balik jika memakai gambar seperti ini di jadwal atau materi promosi
contoh gambar
Ia bisa membuat gambar ‘astronaut menunggang kuda’ dengan baik, tetapi terus gagal untuk gambar ‘kuda menunggang astronaut’
Masalah ini tetap bertahan bahkan di model-model terbaru, dan tim Qwen Image kemungkinan sadar akan benchmark yang sulit ini
Pada akhirnya, karena ‘astronaut = manusia’, tes ini terhubung dengan meme Tiongkok itu
1️⃣ Melihat pola rilis sebelumnya, kemungkinan besar open weight akan hadir dalam 3–4 minggu
2️⃣ Sepertinya mereka menargetkan model yang bisa berjalan di GPU spesifikasi rendah, seperti Z‑Image Turbo(6B) dan Flux.2 Klein(9B)
3️⃣ Karena ini adalah model tunggal yang menggabungkan pembuatan dan pengeditan gambar, tidak perlu memisahkan Qwen‑Image dan Qwen‑Edit
4️⃣ Di GenAI Showdown milik saya, Qwen‑Image berada di peringkat 1 untuk kemampuan editing di antara model lokal, dan juga masuk jajaran atas untuk kemampuan generasi
Saya akan menambahkannya ke situs itu saat versi lokalnya keluar
Jadi model 20B cukup dengan 20GB RAM, dan pada skala seperti ini bahkan iGPU pun bisa dipakai
Konfigurasi unified RAM 128GB juga bisa didapat dengan harga sekitar 2200 dolar
Setup seperti ini jauh lebih murah daripada membeli GPU terpisah
Ia memakai VAE sendiri, tetapi ada masalah high-frequency artifact
Qwen 2 yang baru jauh lebih ringan dengan 7B parameter, dan ditingkatkan ke Qwen 3 VL
Sekarang ia berevolusi menjadi model Omni yang menggabungkan Image dan Edit
Tiga model, yaitu Z‑Image, Klein, dan Qwen, kini bersaing sekaligus untuk posisi “SDXL2”
Jika open weight dirilis, itu akan sangat menarik
Setiap 3–4 bulan SOTA berganti, dan inovasi kuartal lalu menjadi produk API
Sekarang bottleneck-nya bukan model, melainkan orang yang mengolah prompt
Pola yang sama juga terlihat pada pembuatan kode
Terdiri dari deskripsi yang sangat realistis, seperti padang rumput yang tandus, debu, dan adegan kuda cokelat menindih seorang pria
Secara keseluruhan, ini adalah gambar yang mengekspresikan ketegangan purba dan benturan kekuatan biologis
tautan terkait
Hanya saja, karena tidak mendukung pembuatan gambar, saya penasaran tool apa yang dipakai orang untuk menjalankan model diffusion seperti Qwen di Linux
Komunitasnya juga menangani quantization, konversi format gguf, sampai optimisasi kecepatan
Saya terutama memakai
diffusers, yang meski lambat, cepat mendukung arsitektur barusitus / catatan rilis
Akan lebih alami kalau memakai tanda baca vertikal (misalnya ︒)
LinkedIn penuh dengan gambar seperti itu
Hampir tidak ada orang yang benar-benar bisa membuat atau menjelaskan infografik yang bagus
Untuk contoh lain, lihat thread Gas Town
Rilis terakhirnya sekitar Desember 2025
Jika memakai prompt yang sama seperti di blog, hasilnya bekerja dengan baik, tetapi kalau input-nya sedikit saja diubah, jumlah panelnya jadi meleset atau dialog bahasa Inggris berubah menjadi bahasa Mandarin
Artinya, ini masih merupakan fitur yang kurang konsisten
Ya, mungkin selera masing-masing