10 poin oleh GN⁺ 2026-02-11 | 1 komentar | Bagikan ke WhatsApp
  • Sebagai model generasi berikutnya untuk pembuatan gambar, ia mewujudkan arsitektur tunggal yang mengintegrasikan pembuatan dan pengeditan teks-gambar
  • Mendukung instruksi 1k token, sehingga dapat langsung membuat infografik kompleks seperti PPT, poster, dan komik
  • Mewujudkan secara bersamaan penggambaran realistis yang detail berbasis resolusi 2K dan rendering teks yang akurat
  • Dengan peringanan model, kecepatan inferensi ditingkatkan, serta mencatat performa unggul pada benchmark teks-ke-gambar maupun gambar-ke-gambar
  • Melalui lima karakteristik utama—presisi (准), kompleksitas (多), estetika (美), realisme (真), dan keselarasan (齐)—model ini memaksimalkan efisiensi produksi konten visual profesional

Ikhtisar Qwen-Image-2.0

  • Qwen-Image-2.0 adalah model fondasi pembuatan gambar generasi berikutnya yang mengadopsi arsitektur tunggal yang mengintegrasikan rendering teks dan pengeditan gambar
    • Memproses instruksi 1k token untuk langsung membuat infografik profesional seperti PPT, poster, dan komik
    • Mengekspresikan adegan realistis yang rinci seperti manusia, alam, dan arsitektur dalam resolusi 2K
    • Dengan integrasi pemahaman dan pembuatan teks, pembuatan dan pengeditan gambar dilakukan dalam satu mode
    • Arsitektur model yang diringankan memastikan kecepatan inferensi yang tinggi
  • Dalam blind test AI Arena, model ini mencatat performa unggul pada tugas teks-ke-gambar dan gambar-ke-gambar

Proses perkembangan model

  • Seri Qwen-Image telah berkembang dengan dua jalur secara paralel: jalur generasi dan jalur pengeditan
    • Pada Agustus 2025, Qwen-Image memperkuat presisi rendering teks
    • Pada Desember 2025, Qwen-Image-2512 meningkatkan detail dan fotorealisme
    • Pada jalur pengeditan, kemampuan berkembang dari pengeditan gambar tunggal (Agustus) → pengeditan multi-gambar (September) → peningkatan konsistensi (Desember)
  • Qwen-Image-2.0 menggabungkan kedua jalur itu menjadi satu model terpadu, menghasilkan performa unggul dalam generasi maupun pengeditan

Presisi (准) dan kompleksitas (多)

  • Model ini secara akurat mewujudkan komposisi kompleks “gambar di dalam gambar”, sehingga meningkatkan efisiensi pembuatan PPT
    • Sebagai contoh, model dapat membuat adegan gabungan dengan dua gambar orang yang sama disusun atas-bawah sambil menjaga konsistensi visual
    Iklan
  • Melalui instruksi 1k token, model dapat merender infografik berstruktur multi-tahap secara lengkap, misalnya laporan A/B test
    • Memungkinkan pembuatan materi visual setingkat laporan profesional yang mencakup elemen kompleks seperti tabel, grafik, angka, dan anotasi
  • Dengan memanfaatkan pengetahuan dunia dari LLM, permintaan sederhana dapat secara otomatis diperluas menjadi prompt deskripsi yang rinci
    • Contoh: permintaan “poster perjalanan dua hari di Hangzhou” dapat diubah menjadi susunan gaya, latar, dan teks yang detail

Estetika (美)

  • Mewujudkan harmoni bentuk antara teks dan gambar
    • Mereproduksi secara akurat gaya lukisan dan kaligrafi tradisional Tiongkok dengan komposisi padu puisi dan gambar
    • Menampilkan beragam gaya huruf secara presisi, misalnya Shoujinti dan Xiaozhuan
  • Sebagai contoh, model hampir sempurna mereproduksi lukisan tinta dengan puisi era Song atau "Lantingji Xu" karya Wang Xizhi dalam gaya Xiaozhuan

Realisme (真)

  • Memperkuat kesan nyata melalui ekspresi presisi atas pantulan optik, material, dan perspektif
    • Contoh: merender teks dengan akurat di atas material berbeda seperti papan tulis kaca, pakaian, dan sampul majalah
    Iklan
  • Mewujudkan ekspresi terpadu pencahayaan, tekstur, dan material setingkat poster film
    • Contoh: pada poster "Qian Deng Wen Xin", logam, hujan, dan tekstur kain berpadu secara alami

Keselarasan (齐)

  • Pada struktur multi-teks seperti kalender, komik, dan infografik, penyelarasan dan tata letak disesuaikan secara otomatis
    • Contoh: pada kalender Februari 2026, tanggal, penanggalan lunar, dan anotasi disejajarkan dengan akurat di dalam grid
    • Teks balon dialog dalam komik disejajarkan ke tengah untuk menghasilkan alur percakapan yang natural
    • Pada infografik OKR, blok teks dan panah disejajarkan otomatis serta dibedakan berdasarkan warna

Peningkatan fotorealisme

  • Membedakan lebih dari 23 ragam warna hijau untuk mengekspresikan realisme ekologis hutan musim panas
    • Tekstur daun, pantulan cahaya, kelembapan, hingga partikel di udara digambarkan secara rinci
  • Mereproduksi secara presisi otot, ekspresi, dan tekstur tubuh manusia maupun hewan
    • Contoh: pada adegan kuda menginjak manusia, ketegangan otot, tekstur kulit, hingga partikel debu digambarkan dengan detail
    Iklan

Fitur pengeditan gambar

  • Sebagai model Omni yang mengintegrasikan generasi dan pengeditan, peningkatan di sisi generasi langsung tercermin pada pengeditan
    • Dapat menyisipkan puisi dan teks ke atas gambar yang sudah ada
    • Dapat menggabungkan tokoh dari dua gambar sambil menjaga kesesuaian pencahayaan dan bayangan secara alami
    • Juga memungkinkan pengeditan campuran foto realistis dan karakter kartun
  • Contoh: memberikan hasil integrasi yang natural pada foto komposit dua orang atau penyisipan karakter ke atas foto kota

Gambar header blog “Qwen Street”

  • Dengan latar pemandangan jalan musim dingin di Beijing, dua toko melambangkan fungsi inti Qwen-Image-2.0
    • Papan toko kaligrafi di kiri: “文字渲染”, bagian dalam bertuliskan “专业幻灯片 中英文海报 高级信息图”
    • Papan toko bunga di kanan: “真实质感”, tanda di atas pintu “2k resolution”
    • Papan tulis yang dipegang manusia salju di tengah: “Qwen-Image-2.0 正式发布”
    • Di jalan tampak pengantar berkendara dengan tulisan “更小模型,更快速度”

Kesimpulan

  • Qwen-Image-2.0 adalah model pembuatan gambar terpadu yang memiliki presisi, kompleksitas, estetika, realisme, dan keselarasan sekaligus
  • Dengan mengaburkan batas antara teks dan gambar, model ini secara signifikan meningkatkan tingkat otomasi dalam pembuatan infografik profesional dan konten visual
  • Saat digunakan untuk riset atau kreasi, disarankan mengutip Qwen-Image Technical Report (arXiv:2508.02324)

1 komentar

 
GN⁺ 2026-02-11
Komentar Hacker News
  • Ada banyak pendapat bahwa contoh “horse riding man” terlalu ganjil, jadi saya ingin menjelaskan latar belakangnya
    Meme ini berasal dari insiden ketika presenter terkenal Tiongkok Kevin Tsai (蔡康永) mengenakan kostum dengan seekor kuda menempel di punggungnya saat acara penghargaan
    Saat itu ia diterpa rumor dengan seorang pria bernama ‘Ma Qiren (马启仁)’, dan nama ini dalam bahasa Mandarin terdengar sama dengan ‘orang yang menunggang kuda (马骑人)’
    Insiden ini menyebar di internet dan menjadi meme, jadi contoh “horse riding man” itu bukan sesuatu yang sepenuhnya muncul tanpa konteks
    Meski begitu, gambarnya sendiri tetap memberi nuansa yang menyeramkan dan ganjil
    tautan foto
    • Latar belakang yang menarik. Prompt seperti ini juga berfungsi untuk menguji latent space pada generator gambar
      Biasanya kebalikannya, yaitu ‘orang menunggang kuda’, lebih mudah, sedangkan ‘kuda menunggang orang’ adalah embedding yang lebih sulit
      Dari prompt yang diterjemahkan, ada juga nuansa satiris seperti “tahun kuda menaklukkan insinyur kulit putih”
      Saya tidak ingin melihat bagaimana SD1.5 akan menggambar ini
    • Menurut artikelnya, nama aslinya adalah 马启仁, bukan 马骑人
      Jadi meskipun namanya terdengar seperti ‘orang yang menunggang kuda’, itu bukan terjemahan harfiah
    • Di dunia generator gambar juga ada masalah “astronaut riding a horse
      Tulisan terkait: Horse Rides Astronaut Redux
    • Saya penasaran apakah di Tiongkok juga ada sentimen negatif terhadap pembuatan gambar AI seperti di AS
      Misalnya, perusahaan-perusahaan AS tampaknya akan khawatir kena reaksi balik jika memakai gambar seperti ini di jadwal atau materi promosi
      contoh gambar
    • Pengaruh lainnya adalah masalah terkenal dari DALL‑E 2
      Ia bisa membuat gambar ‘astronaut menunggang kuda’ dengan baik, tetapi terus gagal untuk gambar ‘kuda menunggang astronaut’
      Masalah ini tetap bertahan bahkan di model-model terbaru, dan tim Qwen Image kemungkinan sadar akan benchmark yang sulit ini
      Pada akhirnya, karena ‘astronaut = manusia’, tes ini terhubung dengan meme Tiongkok itu
  • Beberapa pemikiran yang saya rangkum
    1️⃣ Melihat pola rilis sebelumnya, kemungkinan besar open weight akan hadir dalam 3–4 minggu
    2️⃣ Sepertinya mereka menargetkan model yang bisa berjalan di GPU spesifikasi rendah, seperti Z‑Image Turbo(6B) dan Flux.2 Klein(9B)
    3️⃣ Karena ini adalah model tunggal yang menggabungkan pembuatan dan pengeditan gambar, tidak perlu memisahkan Qwen‑Image dan Qwen‑Edit
    4️⃣ Di GenAI Showdown milik saya, Qwen‑Image berada di peringkat 1 untuk kemampuan editing di antara model lokal, dan juga masuk jajaran atas untuk kemampuan generasi
    Saya akan menambahkannya ke situs itu saat versi lokalnya keluar
    • Untuk orang yang tidak terlalu akrab dengan teknologinya, quantization yang baik memungkinkan LLM berjalan dengan kira-kira 1 byte per parameter
      Jadi model 20B cukup dengan 20GB RAM, dan pada skala seperti ini bahkan iGPU pun bisa dipakai
      Konfigurasi unified RAM 128GB juga bisa didapat dengan harga sekitar 2200 dolar
      Setup seperti ini jauh lebih murah daripada membeli GPU terpisah
    • Dari sisi teknis, Qwen 2512 memiliki 19B parameter dan berukuran 40GB di FP16, lalu muat di 3090 dengan FP8
      Ia memakai VAE sendiri, tetapi ada masalah high-frequency artifact
      Qwen 2 yang baru jauh lebih ringan dengan 7B parameter, dan ditingkatkan ke Qwen 3 VL
      Sekarang ia berevolusi menjadi model Omni yang menggabungkan Image dan Edit
      Tiga model, yaitu Z‑Image, Klein, dan Qwen, kini bersaing sekaligus untuk posisi “SDXL2”
      Jika open weight dirilis, itu akan sangat menarik
  • Ada masa singkat ketika Midjourney terasa seperti puncak dari generator gambar
    • Bukankah masih begitu? Banyak kreator yang saya kenal masih memilih Midjourney karena selera estetik subjektifnya
    • Saya penasaran sekarang nasib Midjourney seperti apa
    • Komoditisasi generator gambar berlangsung sangat cepat
      Setiap 3–4 bulan SOTA berganti, dan inovasi kuartal lalu menjadi produk API
      Sekarang bottleneck-nya bukan model, melainkan orang yang mengolah prompt
      Pola yang sama juga terlihat pada pembuatan kode
  • Isi prompt “horse riding man” itu benar-benar kuat
    Terdiri dari deskripsi yang sangat realistis, seperti padang rumput yang tandus, debu, dan adegan kuda cokelat menindih seorang pria
    Secara keseluruhan, ini adalah gambar yang mengekspresikan ketegangan purba dan benturan kekuatan biologis
    • Sebagai referensi bagi yang bingung, ada “patung kuda menginjak Xiongnu” dari era Dinasti Han
      tautan terkait
  • Baru-baru ini saya mencoba model lokal dengan LMStudio di Linux dan ternyata sangat mudah
    Hanya saja, karena tidak mendukung pembuatan gambar, saya penasaran tool apa yang dipakai orang untuk menjalankan model diffusion seperti Qwen di Linux
    • Orang yang benar-benar memakai model jenis ini kebanyakan menggunakan ComfyUI
      Komunitasnya juga menangani quantization, konversi format gguf, sampai optimisasi kecepatan
    • Perubahannya terlalu cepat, jadi saya membuat server HTTP Python sendiri untuk me-routing tiap implementasi lewat antarmuka JSON
      Saya terutama memakai diffusers, yang meski lambat, cepat mendukung arsitektur baru
    • ComfyUI adalah yang terbaik untuk Stable Diffusion
    • Sangat disarankan untuk mencobanya sekali. Belakangan ini jadi jauh lebih ramah berkat fitur template
    • Jika memakai platform AMD, Lemonade mendukung pembuatan gambar sejak versi 9.2
      situs / catatan rilis
  • Tipografi vertikal bahasa Mandarin terasa agak janggal
    Akan lebih alami kalau memakai tanda baca vertikal (misalnya ︒)
  • Saya membuat infografik dengan AI generatif setiap hari, tetapi terus terang 99% hasilnya buruk
    LinkedIn penuh dengan gambar seperti itu
    • Tapi LinkedIn memang sudah buruk dari awal, jadi bukan berarti sekarang jadi lebih buruk
    • Infografik dan presentasi masih merupakan fitur eksklusif NanoBananaPro
    • Kualitas infografik pada akhirnya bergantung pada kemampuan pembuatnya
      Hampir tidak ada orang yang benar-benar bisa membuat atau menjelaskan infografik yang bagus
    • Seperti diagram ASCII tak berguna di GitHub, visualisasi seperti ini hanyalah noise kognitif
      Untuk contoh lain, lihat thread Gas Town
  • Sayangnya kali ini tampaknya tidak ada rilis open weight
    • Meski begitu, baru sekitar sebulan lalu mereka juga merilis model gambar open weight, jadi kali ini pun masih ada kemungkinan
      Rilis terakhirnya sekitar Desember 2025
  • Saya suka contoh panel komik mereka, jadi saya mencobanya langsung di Qwen Chat
    Jika memakai prompt yang sama seperti di blog, hasilnya bekerja dengan baik, tetapi kalau input-nya sedikit saja diubah, jumlah panelnya jadi meleset atau dialog bahasa Inggris berubah menjadi bahasa Mandarin
    Artinya, ini masih merupakan fitur yang kurang konsisten
  • “Gambar aplikasi berkuda” itu menarik
    • Tapi agak tak terduga mereka memakai demo berupa “adegan kuda menerjang manusia”
      Ya, mungkin selera masing-masing