Qwen-Image: Model Generasi Gambar dengan Rendering Teks Asli

(qwenlm.github.io)

1 poin oleh GN⁺ 2025-08-05 | 1 komentar | Bagikan ke WhatsApp

Qwen-Image adalah model generasi gambar berbasis MMDiT 20B parameter dengan keunggulan pada rendering teks native dan penyuntingan gambar presisi
Mencapai akurasi tinggi dan kualitas visual yang baik pada representasi karakter kompleks dari berbagai bahasa, termasuk alfabet dan Hanzi
Mencapai performa terbaik dalam kelasnya di berbagai benchmark publik (GenEval, DPG, OneIG-Bench, dan lain-lain), serta memiliki kemampuan pembuatan teks yang unggul
Pada demo nyata, berhasil merepresentasikan dengan tepat teks multibahasa, poster, PPT, ilustrasi, dan lain-lain dengan tata letak kompleks serta berbagai gaya
Mendukung fitur edit seperti perubahan gaya, penambahan/penghapusan objek, deskripsi detail, perubahan pose, dan berfokus pada perluasan ekosistem open source

Pengenalan dan Fitur Utama

Qwen-Image adalah model dasar pembuatan gambar berbasis MMDiT berdasarkan 20B parameter yang dioptimalkan untuk rendering teks kompleks dan penyuntingan gambar presisi
Pengalaman model terbaru dapat dicoba di Qwen Chat

Fitur Utama

Rendering teks unggul: Mendukung tata letak multi-baris, pemahaman makna tingkat paragraf, dan ekspresi detail
- Mendukung dengan fidelity tinggi baik untuk sistem berbasis alfabet maupun karakter logografis seperti Hanzi
Penyuntingan gambar konsisten: Melalui pelatihan multitugas yang ditingkatkan, menjaga akurasi semantik dan realisme visual secara bersamaan
Performa benchmark yang kuat: Mencapai performa teratas di kelasnya untuk tugas generasi dan penyuntingan di berbagai benchmark publik
Di area pembuatan dan penyuntingan teks, mencatat hasil unggul pada LongText-Bench, ChineseWord, TextCraft, dan lain-lain
Dapat digunakan secara luas untuk kebutuhan kreatif seperti kreasi, desain, dan storytelling

Kinerja dan Benchmark

Qwen-Image mencapai performa SOTA terbaru (state-of-the-art) di semua benchmark, termasuk GenEval, DPG, OneIG-Bench (pembuatan gambar umum), GEdit, ImgEdit, GSO (penyuntingan)
Terutama pada pembuatan teks Mandarin, model ini melampaui model terbaik sebelumnya dengan selisih besar
Dengan menggabungkan kapabilitas umum yang luas dan rendering teks yang akurat, Qwen-Image menempatkan diri sebagai model pemimpin dalam pembuatan gambar

Contoh Demo

Ekspresi Teks Mandarin

Berdasarkan prompt contoh, berhasil menampilkan gaya animasi Miyazaki sekaligus mengekspresikan dengan tepat teks nyata “云存储”, “云计算”, “云模型” serta karakter Hanzi khusus (“千问”)
Pose dan ekspresi karakter, serta kedalaman di dalam adegan juga direalisasikan secara alami

Ekspresi Paralel Hanzi yang Kompleks

Menghadirkan detail-detail halus seperti pasangan kalimat berpasangan, kaligrafi brushwork, hingga ornamen bergaya Qinghua dengan sangat teliti
Bentuk tulisan, tata letak, dan gambar (misalnya 岳阳楼) juga direproduksi sangat mirip dengan aslinya

Teks Inggris & Multi-baris

Teks pada berbagai posisi seperti rak buku, papan pengumuman, dan poster direfleksikan secara detail
Mulai dari “New Arrivals This Week” hingga kalimat pendek di sampul buku, mereplikasi font dan tata letak yang realistis

Infografik Bahasa Inggris yang Kompleks

Setiap submodul dipisahkan secara tepat hingga ikon+judul+paragraf penjelasan dan ditempatkan sesuai posisinya
Infografik kompleks bertema “Habits for Emotional Wellbeing” juga diselesaikan dengan karya seni yang natural dan komposisi yang seimbang

Teks Kecil/Panjang

Dapat mengimplementasikan teks tulisan tangan panjang secara detail hingga area dalam gambar kurang dari 1/10
Banyak kalimat juga direplikasi secara presisi, termasuk tulisan tangan, tata letak, dan line break

Campuran Multibahasa

Menghasilkan tulisan tangan bahasa Inggris dan Mandarin secara bersamaan dalam satu gambar
Dapat memproduksi teks secara alami sesuai dengan perpindahan bahasa pada prompt

Pembuatan Poster

Pada poster film, teks dan elemen visual seperti subjudul, daftar pemeran, sutradara, dan info peluncuran dipadukan secara fleksibel dalam berbagai gaya seperti Sci-Fi dan desain grafis

Contoh PPT Bahasa Korea

Secara konsisten menghasilkan gaya PPT AI/perusahaan terbaru, termasuk logo Alibaba, judul utama, subjudul, penempatan gambar karya seni, font kaligrafi, dan penjelasan detail

Pembuatan Gambar dan Penyuntingan Umum

Mendukung berbagai gaya seni seperti fotorealistik, impresionis, anime, dan minimalis, menyediakan utilisasi kreatif yang kaya
Mendukung beragam perintah penyuntingan gambar praktis seperti perubahan gaya, penambahan/penghapusan objek, peningkatan detail, penyuntingan teks, dan penyesuaian pose tubuh

Kesimpulan

Qwen-Image berfokus pada perluasan cakrawala pembuatan gambar, penurunan hambatan teknis dalam produksi konten visual, dan dorongan pemanfaatan kreatif
Berfokus pada kolaborasi komunitas, keterbukaan, dan pembangunan ekosistem AI generatif yang berkelanjutan
Merencanakan peningkatan fitur dan perluasan ekosistem terbuka dengan mengakomodasi penggunaan dan umpan balik nyata dari pengguna

1 komentar

GN⁺ 2025-08-05

Komentar Hacker News

Saya tidak mengerti kenapa ini tidak jadi isu besar —— Ini bukan hanya model sumber terbuka pertama yang mengalahkan gpt-image-1 di segala aspek, tapi juga model yang mengungguli Flux Kontext dalam kemampuan editing. Ini benar-benar hal besar.
- Saya sudah mencoba main-main dengan model ini sekitar satu jam. Secara keseluruhan sangat baik, tetapi dari pengujian awal saya pada kepatuhan prompt yang cukup kompleks, performanya jelas lebih buruk daripada gpt-image-1 (atau Imagen 3/4). Keberhasilannya kira-kira ~50%, sementara gpt-image-1 sekitar ~75%. Ia tidak bisa menangani labirin, persamaan Schrödinger, dan sebagainya. Saya mengujinya di situs genai showdown.
- Dari halaman mereka saja belum jelas, tetapi model pengeditan tampaknya belum dirilis secara resmi. Lihat tautan komentar isu GitHub.
- Menurut saya, model ini jelas bisa melakukan lebih banyak hal daripada gpt-image-1. Dari style transfer, penambahan/penghapusan objek, pengeditan teks, manipulasi pose orang, hingga deteksi objek, segmentasi semantik, estimasi kedalaman/tepi, super-resolution, dan NVS (new view synthesis), yaitu membuat gambar dari sudut pandang baru berdasarkan gambar dasar. Ini benar-benar parade fitur. Dari hasil awal, gpt-image-1 terlihat sedikit lebih unggul dalam ketajaman dan kejernihan. Terus terang, saya curiga OpenAI mungkin memakai trik post-processing sederhana seperti unsharp mask. Bahkan area yang blur juga kadang terlihat memiliki kejernihan yang anehnya merata, kadang terasa berlebihan. Namun secara keseluruhan, model ini juga tampak hampir setingkat. Jujur, saya kira teknologi generasi gambar milik OpenAI tahun ini akan tetap unggul, tapi ini sungguh kejutan. Oh ya, Flux Krea baru diumumkan 4 hari lalu! Kalau model ini memang hampir sepadan dengan gpt-image-1, itu akan jadi perubahan besar.
- Sejauh yang saya tahu, kebutuhan VRAM sebesar 40GB inilah yang tampaknya agak meredam antusiasme publik. Sekadar catatan, teknologi distribusi beberapa GPU untuk model LLM sudah cukup matang, tapi kenapa perkembangan di model gambar (meski pakai format GGUF) justru lambat, saya tidak tahu. Saya pikir makin besar model gambar, makin banyak eksekusi terdistribusi yang akan diterapkan.
- Karena baru lewat beberapa jam dan demo terus error, saya rasa butuh waktu lebih banyak agar orang bisa benar-benar mencoba. Munculnya GGUF yang dikuantisasi dan berbagai workflow Comfy juga akan menjadi faktor penting, karena kebanyakan orang akan ingin menjalankannya secara lokal. Tapi ukurannya memang cukup besar dibanding model lain. Menariknya, perbandingan terbesar justru lebih banyak dengan Alibaba daripada Flux. Misalnya, Wan 2.2 sudah sangat populer untuk image generation, jadi saya penasaran seberapa besar lompatan yang dilakukan Qwen-Image dibanding Wan 2.2. Menurut saya, evaluasi nyata model image baru paling baik biasanya sekitar satu minggu setelah rilis; saat itu, pengguna sudah banyak menguji langsung dan kelebihan/kelemahan dari perspektif pihak ketiga mulai dirangkum. Model ini juga sangat dinantikan.
Ini rilis bagus! Saya menambahkannya di situs GenAI Showdown. Secara keseluruhan meraih sekitar 40% skor dan tergolong cukup bagus, apalagi sebagai model SOTA yang bisa dijalankan di GPU konsumen (apalagi kalau versinya dikuantisasi). Tapi memang dalam mengikuti prompt txt2img dengan tepat, model ini jauh di bawah gpt-image-1 milik OpenAI. Namun, seperti disebutkan di thread ini, keunggulan model ini adalah juga bisa melakukan banyak tugas lain seperti editing. Bisa dicek juga di GenAI Showdown.
- Perlu diingat, Imagen 3 dan 4 adalah model yang benar-benar berbeda, jadi saya rasa tidak tepat dibandingkan bersama.
Untuk orang-orang yang sering melakukan hal seperti ini mungkin biasa, tapi saya penasaran spesifikasi hardware yang dibutuhkan untuk menjalankannya. Saya mencoba di mesin Linux dengan GPU 16GB dan RAM 64GB. Di PC ini, SD berjalan lancar. Namun Qwen-image tetap error karena memori kurang, baik saat berjalan di GPU maupun CPU. Saya penasaran apakah ini terlalu sedikit, cukup ditambah dua kali, perlu dinaikkan puluhan kali, atau memang butuh hardware yang super ekstrem.
- Untuk orang yang sering melakukan hal ini ini memang mungkin terasa biasa, tapi sebenarnya tidak sesederhana itu. Perhitungan penggunaan VRAM pada VLM/LLM hampir jadi area yang ajaib. Ada sekitar sepuluh kalkulator online, tapi tak ada yang tepat. Kuantisasi, KV caching, aktivasi, layer, dan banyak variabel lain berperan. Sangat merepotkan. Bagaimanapun, untuk model ini dibutuhkan lebih dari 40GB VRAM. RAM sistem biasa juga akan kurang (kecuali di Apple Silicon dengan unified RAM, kalau demikian). Bahkan di Apple Silicon pun bandwidth memori yang lebih rendah membuat inferensi jauh lebih lambat dibanding GPU/TPU.
- Ukurannya kemungkinan hampir sama dengan ukuran file model. Kalau lihat folder transformers, ada sekitar 9 file 5GB, jadi kira-kira butuh 45GB VRAM di GPU. Biasanya versi ringan yang dikuantisasi (dengan mengorbankan kualitas) akan segera tersedia.
- Qwen-Image membutuhkan minimal 24GB VRAM untuk model penuh. Namun versi 4-bit quantized bisa jalan dengan sekitar 8GB VRAM lewat library seperti AutoGPTQ.
- Sepertinya perlu tunggu beberapa hari untuk rilis versi quantized 4-bit. Jumlah parameternya 20B.
- Di inferensi produksi, ini berjalan lancar di 1xH100.
Yang mengejutkan dibanding model image generation lain adalah tidak mengubah seluruh gambar secara berlebihan seperti 4o image gen. Di 4o, kalau cuma mengedit baju, wajah sering ikut berubah; model ini sepertinya hanya menyisipkan jejak AI buatan di bagian yang memang perlu diubah.
- Jadi, itulah mengapa Flux Kontext jadi sangat dibahas—karena memberi kekuatan inpainting img2img tanpa perlu masking manual. Lihat blog terkait editing.
- Di 4o, kamu juga bisa memilih area yang ingin diedit dan membiarkan sisanya tetap.
Akhir-akhir ini, model open source dari China keluar dengan kualitas yang sangat luar biasa. Setiap kali dapat berita seperti ini, saya benar-benar kembali bersemangat.
Ada yang tahu, bagaimana teks rendering dilatih pada model semacam ini? Semua model yang saya coba (termasuk OpenAI, Flux) punya masalah yang sama: teksnya tidak natural dan bayangan/pantulan di gambar terasa canggung dibanding gambar aslinya. Sepertinya mereka memakai trik yang mirip.
- Ini dijelaskan di halaman 14 laporan teknis. Mereka menyebutkan membuat data sintetik dengan menimpa teks ke atas gambar. Sepertinya model dilatih seperti itu tanpa mempertimbangkan kondisi pencahayaan asli. Garbage in, garbage out. Mudah-mudahan nanti muncul metode sintesis teks yang lebih realistis; kalau dilatih dengan itu, model yang menghasilkan teks lebih natural pun bisa tercipta.
Saya juga sarankan lihat bagian Data Filtering di section 3.2 paper. PDF paper asli.
- Menariknya, selain Inggris dan Mandarin, tidak ada bahasa lain yang disebutkan atau dicontohkan.
Saya penasaran spesifikasi kartu grafis terendah yang masuk akal untuk hosting sendiri model ini.
Canvas pendek.
Seberapa ketat sensornya?
- Setiap model baru dirilis, ini biasanya yang paling membuat komunitas penasaran, dan memang tidak ada organisasi yang ingin berhadapan dengan realitas tidak nyaman dari sifat manusia. Di sisi lain, masyarakat dan perusahaan di AS tampaknya sarat dengan kehati-hatian dan asketisme yang aneh.

Qwen-Image: Model Generasi Gambar dengan Rendering Teks Asli

Pengenalan dan Fitur Utama

Fitur Utama

Kinerja dan Benchmark

Contoh Demo

Ekspresi Teks Mandarin

Ekspresi Paralel Hanzi yang Kompleks

Teks Inggris & Multi-baris

Infografik Bahasa Inggris yang Kompleks

Teks Kecil/Panjang

Campuran Multibahasa

Pembuatan Poster

Contoh PPT Bahasa Korea

Pembuatan Gambar dan Penyuntingan Umum

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News