10 poin oleh GN⁺ 2026-02-11 | Belum ada komentar. | Bagikan ke WhatsApp
  • Sebagai model generasi berikutnya untuk pembuatan gambar, ia mewujudkan arsitektur tunggal yang mengintegrasikan pembuatan dan pengeditan teks-gambar
  • Mendukung instruksi 1k token, sehingga dapat langsung membuat infografik kompleks seperti PPT, poster, dan komik
  • Mewujudkan secara bersamaan penggambaran realistis yang detail berbasis resolusi 2K dan rendering teks yang akurat
  • Dengan peringanan model, kecepatan inferensi ditingkatkan, serta mencatat performa unggul pada benchmark teks-ke-gambar maupun gambar-ke-gambar
  • Melalui lima karakteristik utama—presisi (准), kompleksitas (多), estetika (美), realisme (真), dan keselarasan (齐)—model ini memaksimalkan efisiensi produksi konten visual profesional

Ikhtisar Qwen-Image-2.0

  • Qwen-Image-2.0 adalah model fondasi pembuatan gambar generasi berikutnya yang mengadopsi arsitektur tunggal yang mengintegrasikan rendering teks dan pengeditan gambar
    • Memproses instruksi 1k token untuk langsung membuat infografik profesional seperti PPT, poster, dan komik
    • Mengekspresikan adegan realistis yang rinci seperti manusia, alam, dan arsitektur dalam resolusi 2K
    • Dengan integrasi pemahaman dan pembuatan teks, pembuatan dan pengeditan gambar dilakukan dalam satu mode
    • Arsitektur model yang diringankan memastikan kecepatan inferensi yang tinggi
  • Dalam blind test AI Arena, model ini mencatat performa unggul pada tugas teks-ke-gambar dan gambar-ke-gambar

Proses perkembangan model

  • Seri Qwen-Image telah berkembang dengan dua jalur secara paralel: jalur generasi dan jalur pengeditan
    • Pada Agustus 2025, Qwen-Image memperkuat presisi rendering teks
    • Pada Desember 2025, Qwen-Image-2512 meningkatkan detail dan fotorealisme
    • Pada jalur pengeditan, kemampuan berkembang dari pengeditan gambar tunggal (Agustus) → pengeditan multi-gambar (September) → peningkatan konsistensi (Desember)
  • Qwen-Image-2.0 menggabungkan kedua jalur itu menjadi satu model terpadu, menghasilkan performa unggul dalam generasi maupun pengeditan

Presisi (准) dan kompleksitas (多)

  • Model ini secara akurat mewujudkan komposisi kompleks “gambar di dalam gambar”, sehingga meningkatkan efisiensi pembuatan PPT
    • Sebagai contoh, model dapat membuat adegan gabungan dengan dua gambar orang yang sama disusun atas-bawah sambil menjaga konsistensi visual
  • Melalui instruksi 1k token, model dapat merender infografik berstruktur multi-tahap secara lengkap, misalnya laporan A/B test
    • Memungkinkan pembuatan materi visual setingkat laporan profesional yang mencakup elemen kompleks seperti tabel, grafik, angka, dan anotasi
  • Dengan memanfaatkan pengetahuan dunia dari LLM, permintaan sederhana dapat secara otomatis diperluas menjadi prompt deskripsi yang rinci
    • Contoh: permintaan “poster perjalanan dua hari di Hangzhou” dapat diubah menjadi susunan gaya, latar, dan teks yang detail

Estetika (美)

  • Mewujudkan harmoni bentuk antara teks dan gambar
    • Mereproduksi secara akurat gaya lukisan dan kaligrafi tradisional Tiongkok dengan komposisi padu puisi dan gambar
    • Menampilkan beragam gaya huruf secara presisi, misalnya Shoujinti dan Xiaozhuan
  • Sebagai contoh, model hampir sempurna mereproduksi lukisan tinta dengan puisi era Song atau "Lantingji Xu" karya Wang Xizhi dalam gaya Xiaozhuan

Realisme (真)

  • Memperkuat kesan nyata melalui ekspresi presisi atas pantulan optik, material, dan perspektif
    • Contoh: merender teks dengan akurat di atas material berbeda seperti papan tulis kaca, pakaian, dan sampul majalah
  • Mewujudkan ekspresi terpadu pencahayaan, tekstur, dan material setingkat poster film
    • Contoh: pada poster "Qian Deng Wen Xin", logam, hujan, dan tekstur kain berpadu secara alami

Keselarasan (齐)

  • Pada struktur multi-teks seperti kalender, komik, dan infografik, penyelarasan dan tata letak disesuaikan secara otomatis
    • Contoh: pada kalender Februari 2026, tanggal, penanggalan lunar, dan anotasi disejajarkan dengan akurat di dalam grid
    • Teks balon dialog dalam komik disejajarkan ke tengah untuk menghasilkan alur percakapan yang natural
    • Pada infografik OKR, blok teks dan panah disejajarkan otomatis serta dibedakan berdasarkan warna

Peningkatan fotorealisme

  • Membedakan lebih dari 23 ragam warna hijau untuk mengekspresikan realisme ekologis hutan musim panas
    • Tekstur daun, pantulan cahaya, kelembapan, hingga partikel di udara digambarkan secara rinci
  • Mereproduksi secara presisi otot, ekspresi, dan tekstur tubuh manusia maupun hewan
    • Contoh: pada adegan kuda menginjak manusia, ketegangan otot, tekstur kulit, hingga partikel debu digambarkan dengan detail

Fitur pengeditan gambar

  • Sebagai model Omni yang mengintegrasikan generasi dan pengeditan, peningkatan di sisi generasi langsung tercermin pada pengeditan
    • Dapat menyisipkan puisi dan teks ke atas gambar yang sudah ada
    • Dapat menggabungkan tokoh dari dua gambar sambil menjaga kesesuaian pencahayaan dan bayangan secara alami
    • Juga memungkinkan pengeditan campuran foto realistis dan karakter kartun
  • Contoh: memberikan hasil integrasi yang natural pada foto komposit dua orang atau penyisipan karakter ke atas foto kota

Gambar header blog “Qwen Street”

  • Dengan latar pemandangan jalan musim dingin di Beijing, dua toko melambangkan fungsi inti Qwen-Image-2.0
    • Papan toko kaligrafi di kiri: “文字渲染”, bagian dalam bertuliskan “专业幻灯片 中英文海报 高级信息图”
    • Papan toko bunga di kanan: “真实质感”, tanda di atas pintu “2k resolution”
    • Papan tulis yang dipegang manusia salju di tengah: “Qwen-Image-2.0 正式发布”
    • Di jalan tampak pengantar berkendara dengan tulisan “更小模型,更快速度”

Kesimpulan

  • Qwen-Image-2.0 adalah model pembuatan gambar terpadu yang memiliki presisi, kompleksitas, estetika, realisme, dan keselarasan sekaligus
  • Dengan mengaburkan batas antara teks dan gambar, model ini secara signifikan meningkatkan tingkat otomasi dalam pembuatan infografik profesional dan konten visual
  • Saat digunakan untuk riset atau kreasi, disarankan mengutip Qwen-Image Technical Report (arXiv:2508.02324)

Belum ada komentar.

Belum ada komentar.