Qwen VLo - Dari "memahami" dunia menuju "menggambarkannya"

(qwenlm.github.io)

1 poin oleh GN⁺ 2025-06-29 | 1 komentar | Bagikan ke WhatsApp

Qwen VLo adalah model terpadu untuk pemahaman dan generasi multimodal yang tidak hanya memahami gambar, tetapi juga menghasilkan gambar berkualitas tinggi
Pengguna dapat memberikan perintah kreatif dalam bahasa alami, serta langsung membuat dan mengedit berbagai gambar seperti transformasi gaya, perubahan latar belakang, dan lainnya
Mendukung berbagai bahasa, sehingga pengguna di seluruh dunia dapat memakainya dengan mudah tanpa hambatan bahasa
Mengadopsi metode generasi progresif yang terus menyempurnakan dan mengoptimalkan gambar, sehingga menawarkan kualitas visual yang lebih baik dan kontrol yang tinggi
Masih berada pada tahap pratinjau, sehingga beberapa fitur mungkin belum stabil, tetapi terus ditingkatkan

Pengenalan

Perkembangan model besar multimodal terus mendorong batas kemampuan teknologi
Dimulai dari QwenVL hingga Qwen2.5 VL, kemampuan memahami konten gambar terus diperkuat, dan kini Qwen VLo hadir sebagai model multimodal baru yang mencakup baik pemahaman maupun generasi
Qwen VLo melangkah lebih jauh dari sekadar "memahami" dunia, dan berdasarkan pemahaman itu dapat "menghasilkan" gambar yang detail
Model ini secara nyata menjembatani batas antara persepsi dan kreasi
Saat ini tersedia sebagai versi pratinjau di Qwen Chat, dan dapat membuat gambar dengan perintah seperti "buat gambar kucing lucu", serta melakukan pengeditan setelah unggah gambar seperti "pasangkan topi pada kucing".

Proses generasi kreatif

Seperti terlihat pada video demonstrasi generasi gambar Qwen VLo, model ini menggunakan metode generasi progresif
Gambar dibangun secara bertahap dari kiri atas ke kanan bawah, sambil terus menyempurnakan prediksi untuk mencapai hasil yang konsisten dan harmonis
Mekanisme generasi ini meningkatkan kualitas visual dan membantu pengguna mengendalikan proses kreatif dengan lebih fleksibel dan rinci.

Dari kemampuan memahami ke kreativitas: peningkatan kemampuan generasi multimodal

Peningkatan utama Qwen VLo

Pemahaman dan reproduksi konten yang presisi
- Model multimodal sebelumnya mengalami ketidakselarasan makna selama proses generasi (misalnya salah mengenali mobil atau kehilangan struktur)
- Qwen VLo meningkatkan kemampuan menangkap detail dan mempertahankan keselarasan semantik yang tinggi
- Misalnya, jika diminta mengubah warna pada foto mobil, model ini dapat mempertahankan tipe dan struktur mobil yang sebenarnya sambil hanya mengubah warnanya secara alami untuk menghasilkan hasil yang realistis
Dukungan pengeditan berbasis perintah terbuka
- Pengguna dapat memasukkan perintah kreatif bebas dalam bahasa alami seperti "ubah gambar ini ke gaya Van Gogh", "seperti foto abad ke-19", atau "tambahkan langit cerah"
- Tidak hanya transformasi gaya, rekonstruksi adegan, dan pengeditan detail, tetapi juga tugas visi tradisional deep learning seperti depth map, segmentasi, dan estimasi tepi dapat dilakukan dengan perintah sederhana
- Perintah gabungan (misalnya modifikasi objek + edit teks + ubah latar belakang) juga dapat dijalankan sekaligus
Dukungan perintah multibahasa
- Qwen VLo mendukung operasi dalam bahasa Mandarin, Inggris, dan lainnya
- Memberikan kemudahan penggunaan global tanpa hambatan bahasa

Contoh penggunaan demo

Qwen VLo, layaknya seniman manusia, mewujudkan imajinasi berdasarkan pemahaman. Model ini mampu melakukan penggantian latar belakang, penambahan subjek, pergantian gaya, pengeditan skala besar berbasis perintah terbuka, serta penanganan deteksi/segmentasi.

Secara khusus, dengan kemampuan regenerasi berbasis pemahaman, ia mendukung transformasi gaya kreatif yang luas seperti komik → foto realistis, atau tokoh tertentu → balon.

Dengan kemampuan canggih dalam menafsirkan gambar dan perintah, model ini dapat menjalankan perintah kompleks sekaligus, misalnya membuat poster, menggabungkan beberapa objek, dan menyelesaikan pekerjaan multi-langkah dalam satu kali proses

Selain itu, Qwen VLo juga mendukung fungsi anotasi/penandaan pada informasi yang sudah ada seperti deteksi, segmentasi, dan edge detection.

Kemampuan memproses input multi-gambar juga sedang disiapkan (akan dirilis resmi di masa mendatang)
Selain input teks+gambar, model ini juga mendukung generasi teks→gambar (gambar umum, poster campuran Mandarin-Inggris, dll.)
Mendukung generasi gambar dengan format rasio horizontal/vertikal yang sangat panjang (hingga 4:1, 1:3, dll.) (akan dirilis resmi)
Model ini juga dapat memahami/menganalisis ulang gambar yang dihasilkannya sendiri untuk tugas seperti mengidentifikasi ras anjing dan kucing

Cara penggunaan

Qwen VLo menggunakan pembelajaran dan generasi resolusi dinamis, sehingga resolusi dan rasio gambar input maupun output dapat digunakan secara bebas. Pengguna dapat membuat gambar dengan ukuran yang diinginkan, seperti poster, ilustrasi, web banner, sampul SNS, dan lainnya, tanpa terikat pada format tetap.

Mekanisme generasi: generasi progresif dari kiri atas → kanan bawah (Progressive generation)
Untuk pekerjaan yang memerlukan kontrol detail seperti iklan atau panel komik yang memuat teks panjang, prosesnya dapat disesuaikan secara halus secara real-time

Batasan

Qwen VLo masih berada pada tahap pratinjau dan memiliki beberapa kekurangan. Selama proses generasi, dapat muncul masalah seperti akurasi yang kurang, ketidaksesuaian dengan sumber asli, ketidakpatuhan terhadap perintah, dan ketidakstabilan dalam pemahaman gambar. Model ini terus diperbaiki dan diperbarui untuk stabilisasi.

Langkah berikutnya

Dengan model besar multimodal yang memiliki input-output teks-visi dua arah, cara baru dalam berekspresi dan berinteraksi kini mulai terbuka
Ke depannya, model tidak hanya akan menyampaikan ide lewat jawaban teks, tetapi juga melalui diagram, garis bantu, penyorotan, dan konten visual lainnya.

Kemampuan generasi yang lebih maju juga akan dimanfaatkan untuk memverifikasi dan meningkatkan tingkat pemahaman model itu sendiri
Misalnya, dengan langsung menghasilkan hasil antara seperti segmentation map dan detection map, model dapat membuktikan sekaligus melengkapi pemahamannya sendiri
Arah penelitian seperti ini terus dieksplorasi

1 komentar

GN⁺ 2025-06-29

Pendapat Hacker News

Cukup disayangkan Qwen tidak merilis open weight. Selama ini, salah satu kekuatan terbesar Qwen adalah strategi open weight-nya. Andai ada model open weight sungguhan yang bisa bersaing dengan pembuatan gambar otomatis milik 4o. Ada banyak arah riset menarik yang hanya mungkin jika bisa mengakses weight secara langsung. Kalau masalahnya adalah pengembalian biaya pengembangan, saya sarankan melihat model peluncuran Flux Kontext Dev dari BFL. Ada juga pendekatan merilis weight gratis untuk peneliti dan individu, lalu startup membeli lisensi komersial dengan harga yang wajar
- Dari gambarnya, jelas terlihat Qwen dilatih menggunakan hasil OpenAI. Cukup lihat saja nuansa cahaya oranyenya (contoh 1, contoh 2, contoh 3). Saya jadi penasaran apakah mereka bahkan sempat mencoba mengumpulkan data sendiri. Pada akhirnya mereka hanya meniru OAI lalu menyembunyikannya di balik API. Bukan cuma tertutup seperti OAI, performanya juga lebih buruk. Strategi seperti ini terasa sulit dipahami
- Kalau tetap menekankan open weight tetapi mengusulkan weight terpisah untuk peneliti dan individu, sementara startup harus membeli lisensi komersial, rasanya itu sudah jauh dari open weight yang sesungguhnya. Seperti "open source", seharusnya ada kebebasan untuk memakainya sesuka hati agar benar-benar layak disebut terbuka. Kalau tidak, kata "open" bisa kehilangan maknanya
- Saya tidak yakin investasi puluhan juta dolar, biaya GPU, dan gaji engineer bisa balik modal hanya dari biaya pembuatan gambar
- Rasanya era open weight dari Tiongkok mendadak berakhir. Alibaba berhenti membuka Qwen, Tencent juga berhenti merilis Hunyuan, dan Bytedance menutup Seedream. Sementara itu, pelatihan dari model Barat jelas masih terus terjadi. Justru menurut saya strategi 100% open lalu memonetisasi lewat infrastruktur dan layanan akan lebih masuk akal
Gambar dikompresi menjadi 256 token sebelum dikirim ke language model. Misalnya saat diminta menambahkan topi, seluruh wajah digambar ulang. Objek individual tidak disimpan secara terpisah, dan karakter beruang itu pun hanya ada sementara. Semuanya disimpan dalam satu ruang laten yang menyatu lalu di-sample ulang di bawah kondisi baru. Sedikit saja prompt diubah, seluruh gambar ikut berubah. Artinya, sistem ini setiap kali membuat ulang seluruh scene, yang terasa cocok untuk berbagai penggunaan
- Di Flux Kontext, detail cenderung terjaga dengan baik seperti pada model multimodal, dan itu saya suka. Di GPT-Image-1, perubahan gaya menyeluruh seperti "dibuat gaya Ghibli" cukup bagus, tetapi untuk perubahan halus seperti menambahkan kacamata ke gambar fotorealistik, detailnya kurang terjaga
Saat melihat contoh edit gambar beruang, saya melihat banyak bagian berubah lebih jauh dari yang diminta. Saya hanya minta latarnya diganti, tetapi beruangnya juga berubah drastis. Saat diminta mengubah beruang menjadi balon, malah muncul perubahan aneh seperti latar belakang (blok trotoar) hilang atau biji semangka ikut lenyap. Saya penasaran apakah ini masalah yang bisa diatasi dengan prompt yang lebih baik, atau memang batasan struktur model
- Keduanya. Optimasi prompt bisa sedikit memperbaiki hasil, tetapi akar masalahnya memang ada pada struktur model dan cara pelatihannya, yakni keterbatasan arsitektur dan metodologi
Saya mencoba gambar pelikan yang sedang naik sepeda, dan juga membuat gambar akordeon. Dalam detail kecil seperti jari atau warna hitam pada tuts, hasilnya masih lemah. Kecepatan generasinya cukup cepat tautan contoh
- Sepertinya poin utama dari tes Simon, yaitu format SVG, terlewat. Gambar pelikan naik sepeda adalah tugas yang sudah mudah diselesaikan sejak Stable Diffusion 2/3. Tantangannya bukan gambar piksel, tetapi SVG yang menuntut penalaran logis dan akurasi
Dalam contoh perubahan gambar seperti editing dan pergantian gaya, terlihat ada semburat kuning halus. Ini juga muncul di GPT Image 1, tetapi tidak ada di Flux Kontext. Saya penasaran kenapa
Semua gambar terasa berada di uncanny valley. Warna dan bayangannya sama-sama terasa janggal
- Hasilnya secara keseluruhan terasa kasar. Kecuali untuk riset, sulit membayangkan penggunaan nyata untuk gambar seperti ini
Sebagai peneliti machine learning sekaligus pemegang gelar fisika, saya kurang nyaman melihat kata-kata seperti "pemahaman" dan "penjelasan" dipakai untuk model semacam ini. Sebenarnya itu tidak membantu dan malah membingungkan. Dalam fisika, kita memakai matematika karena presisi, dan coding juga sangat konkret. Dalam hidup, kita dipengaruhi oleh begitu banyak detail, tetapi model semacam ini tidak bisa menangkap nuansa tersebut. Saya sangat menyarankan membaca "Relativity of Wrong" karya Asimov (tautan). Kalau benar-benar ingin mengatakan model itu "memahami", maka model harus bisa menghasilkan sesuatu yang belum pernah didengar, seperti penemuan, inferensi, atau redefinisi konsep. Manusia secara alami mampu melakukan counterfactual thinking (tautan), tetapi model ML modern tidak. Contoh khasnya adalah kesalahan jumlah jari pada gambar OP atau susunan tombol keyboard yang keliru. Sekilas tampak meyakinkan, tetapi makin lama dilihat makin terasa aneh, sebuah gejala uncanny valley yang sangat khas
- Dari sudut pandang orang yang benar-benar membuat sesuatu, perdebatan seperti ini terasa melelahkan. Fakta bahwa konsep input dan output dijelaskan dengan mudah saja sudah cukup bernilai. Kalau membaca dokumen rilisnya, akan terlihat bahwa Qwen awalnya berperan sebagai VLM untuk "memahami/mengidentifikasi/mengenali", dan sekarang kemampuannya diperluas ke "menghasilkan/mendeskripsikan/menggambar" dan sejenisnya. Tidak perlu krisis berlebihan atau pemaknaan yang terlalu jauh
Saya penasaran bagaimana cara mematikan fitur pembacaan suara otomatis. Saat masuk ke situs web, saya ingin situs itu hanya diam dalam mode siaga dan baru berjalan saat saya sendiri mengoperasikannya. Di Firefox, video sempat autoplay dalam mode layar penuh lalu tiba-tiba pembacaan dimulai (lingkungan iOS)
- Pengaturan > Pengaturan situs > Blokir autoplay audio dan video. Di Firefox Android fitur itu tersedia. Di iOS maupun desktop juga ada opsi serupa, dan permintaan izin notifikasi pun bisa diblokir sepenuhnya
Saya penasaran apakah ada laporan teknis tentang arsitektur pembuatan gambar ala 4o. Saya juga ingin tahu lebih detail tentang model lain yang menghasilkan gambar dengan pendekatan serupa
Secara pribadi saya merasa machine learning jauh lebih berkembang dalam hal "mendeskripsikan" daripada "memahami"
- Saya penasaran apa dasar untuk menganggap manusia lebih memahami dunia. Manusia memang sering menunjukkan respons emosional terhadap dunia, tetapi emosi itu sendiri tidak memberi pemahaman. Kata "memahami" pun pada akhirnya hanyalah standar yang sangat subjektif