1 poin oleh GN⁺ 2025-08-05 | Belum ada komentar. | Bagikan ke WhatsApp
  • Qwen-Image adalah model generasi gambar berbasis MMDiT 20B parameter dengan keunggulan pada rendering teks native dan penyuntingan gambar presisi
  • Mencapai akurasi tinggi dan kualitas visual yang baik pada representasi karakter kompleks dari berbagai bahasa, termasuk alfabet dan Hanzi
  • Mencapai performa terbaik dalam kelasnya di berbagai benchmark publik (GenEval, DPG, OneIG-Bench, dan lain-lain), serta memiliki kemampuan pembuatan teks yang unggul
  • Pada demo nyata, berhasil merepresentasikan dengan tepat teks multibahasa, poster, PPT, ilustrasi, dan lain-lain dengan tata letak kompleks serta berbagai gaya
  • Mendukung fitur edit seperti perubahan gaya, penambahan/penghapusan objek, deskripsi detail, perubahan pose, dan berfokus pada perluasan ekosistem open source

Pengenalan dan Fitur Utama

  • Qwen-Image adalah model dasar pembuatan gambar berbasis MMDiT berdasarkan 20B parameter yang dioptimalkan untuk rendering teks kompleks dan penyuntingan gambar presisi
  • Pengalaman model terbaru dapat dicoba di Qwen Chat

Fitur Utama

  • Rendering teks unggul: Mendukung tata letak multi-baris, pemahaman makna tingkat paragraf, dan ekspresi detail
    • Mendukung dengan fidelity tinggi baik untuk sistem berbasis alfabet maupun karakter logografis seperti Hanzi
  • Penyuntingan gambar konsisten: Melalui pelatihan multitugas yang ditingkatkan, menjaga akurasi semantik dan realisme visual secara bersamaan
  • Performa benchmark yang kuat: Mencapai performa teratas di kelasnya untuk tugas generasi dan penyuntingan di berbagai benchmark publik
  • Di area pembuatan dan penyuntingan teks, mencatat hasil unggul pada LongText-Bench, ChineseWord, TextCraft, dan lain-lain
  • Dapat digunakan secara luas untuk kebutuhan kreatif seperti kreasi, desain, dan storytelling

Kinerja dan Benchmark

  • Qwen-Image mencapai performa SOTA terbaru (state-of-the-art) di semua benchmark, termasuk GenEval, DPG, OneIG-Bench (pembuatan gambar umum), GEdit, ImgEdit, GSO (penyuntingan)
  • Terutama pada pembuatan teks Mandarin, model ini melampaui model terbaik sebelumnya dengan selisih besar
  • Dengan menggabungkan kapabilitas umum yang luas dan rendering teks yang akurat, Qwen-Image menempatkan diri sebagai model pemimpin dalam pembuatan gambar

Contoh Demo

Ekspresi Teks Mandarin

  • Berdasarkan prompt contoh, berhasil menampilkan gaya animasi Miyazaki sekaligus mengekspresikan dengan tepat teks nyata “云存储”, “云计算”, “云模型” serta karakter Hanzi khusus (“千问”)
  • Pose dan ekspresi karakter, serta kedalaman di dalam adegan juga direalisasikan secara alami

Ekspresi Paralel Hanzi yang Kompleks

  • Menghadirkan detail-detail halus seperti pasangan kalimat berpasangan, kaligrafi brushwork, hingga ornamen bergaya Qinghua dengan sangat teliti
  • Bentuk tulisan, tata letak, dan gambar (misalnya 岳阳楼) juga direproduksi sangat mirip dengan aslinya

Teks Inggris & Multi-baris

  • Teks pada berbagai posisi seperti rak buku, papan pengumuman, dan poster direfleksikan secara detail
  • Mulai dari “New Arrivals This Week” hingga kalimat pendek di sampul buku, mereplikasi font dan tata letak yang realistis

Infografik Bahasa Inggris yang Kompleks

  • Setiap submodul dipisahkan secara tepat hingga ikon+judul+paragraf penjelasan dan ditempatkan sesuai posisinya
  • Infografik kompleks bertema “Habits for Emotional Wellbeing” juga diselesaikan dengan karya seni yang natural dan komposisi yang seimbang

Teks Kecil/Panjang

  • Dapat mengimplementasikan teks tulisan tangan panjang secara detail hingga area dalam gambar kurang dari 1/10
  • Banyak kalimat juga direplikasi secara presisi, termasuk tulisan tangan, tata letak, dan line break

Campuran Multibahasa

  • Menghasilkan tulisan tangan bahasa Inggris dan Mandarin secara bersamaan dalam satu gambar
  • Dapat memproduksi teks secara alami sesuai dengan perpindahan bahasa pada prompt

Pembuatan Poster

  • Pada poster film, teks dan elemen visual seperti subjudul, daftar pemeran, sutradara, dan info peluncuran dipadukan secara fleksibel dalam berbagai gaya seperti Sci-Fi dan desain grafis

Contoh PPT Bahasa Korea

  • Secara konsisten menghasilkan gaya PPT AI/perusahaan terbaru, termasuk logo Alibaba, judul utama, subjudul, penempatan gambar karya seni, font kaligrafi, dan penjelasan detail

Pembuatan Gambar dan Penyuntingan Umum

  • Mendukung berbagai gaya seni seperti fotorealistik, impresionis, anime, dan minimalis, menyediakan utilisasi kreatif yang kaya
  • Mendukung beragam perintah penyuntingan gambar praktis seperti perubahan gaya, penambahan/penghapusan objek, peningkatan detail, penyuntingan teks, dan penyesuaian pose tubuh

Kesimpulan

  • Qwen-Image berfokus pada perluasan cakrawala pembuatan gambar, penurunan hambatan teknis dalam produksi konten visual, dan dorongan pemanfaatan kreatif
  • Berfokus pada kolaborasi komunitas, keterbukaan, dan pembangunan ekosistem AI generatif yang berkelanjutan
  • Merencanakan peningkatan fitur dan perluasan ekosistem terbuka dengan mengakomodasi penggunaan dan umpan balik nyata dari pengguna

Belum ada komentar.

Belum ada komentar.