- Qwen3-VL adalah generasi terbaru dari model multimodal vision-language, yang menghadirkan peningkatan performa di berbagai bidang seperti pemahaman dan generasi teks, pengenalan video, penalaran spasial, dan pemahaman konteks panjang
- Model andalan Qwen3-VL-235B-A22B dirilis dalam versi Instruct dan Thinking, yang masing-masing mencatat hasil mutakhir dalam pengenalan visual dan penalaran multimodal
- Model ini memperkuat beragam kemampuan penggunaan nyata seperti fitur agen, visual coding, penalaran spasial 2D/3D, serta pemahaman teks panjang dan video berdurasi panjang
- Dukungan diperluas hingga OCR 32 bahasa, pemahaman dokumen kompleks, serta pemrosesan multi-gambar dan video, sehingga cocok untuk penggunaan sehari-hari maupun profesional
- Hal ini diharapkan menghadirkan fondasi multimodal tingkat tertinggi bagi komunitas open source dan mempercepat penyelesaian masalah dunia nyata serta perkembangan agen AI di masa depan
Pengenalan Qwen3-VL
- Qwen3-VL adalah model AI multimodal terbaru yang dikembangkan oleh QwenTeam, dengan kemampuan memproses dan memahami secara komprehensif berbagai bentuk data seperti gambar, teks, tabel, dokumen, rumus, dan grafik
Fitur utama
- Fitur agen visual: mengenali GUI, mengklik tombol, memanggil alat, dan melakukan tugas otomatisasi di lingkungan komputer maupun mobile
- Performa teks yang ditingkatkan: melalui pembelajaran simultan teks dan visual sejak tahap awal, model ini memperoleh kemampuan pemrosesan teks yang kuat setara model bahasa tunggal
- Visual coding: mengubah gambar desain menjadi kode HTML, CSS, dan JavaScript, mewujudkan konsep 'coding sesuai yang dilihat'
- Pemahaman spasial: diperluas dari koordinat absolut 2D ke koordinat relatif, serta mendukung grounding 3D untuk membangun fondasi robotika dan kendaraan otonom
- Pemrosesan konteks panjang dan video berdurasi panjang: mendukung 256K token secara default, dapat diperluas hingga 1 juta token, dan mampu mengingat serta menelusuri video 2 jam dengan akurat
- Optimasi penalaran (versi Thinking): unggul dalam penyelesaian masalah matematika dan STEM, serta mencatat performa terbaik pada benchmark seperti MathVision, MMMU, dan MathVista
Evaluasi performa
- Versi Instruct: mencapai performa pengenalan visual yang melampaui model tertutup utama seperti Gemini 2.5 Pro dan GPT-5
- Versi Thinking: mencapai hasil kelas dunia dalam penalaran multimodal matematika dan sains, terutama melampaui Gemini 2.5 Pro pada MathVision
- Tugas yang berfokus pada teks: performanya setara dengan Qwen3-235B-A22B-2507
- Uji video berdurasi panjang: membuktikan stabilitas tinggi dengan akurasi 99,5% bahkan pada input 1 juta token
- OCR multibahasa: mencapai akurasi di atas 70% pada 32 dari 39 bahasa
Peningkatan arsitektur
- Interleaved-MRoPE: memperkuat kemampuan memahami video berdurasi panjang dengan mendistribusikan dimensi waktu, tinggi, dan lebar secara berselang-seling
- DeepStack: meningkatkan performa penyelarasan teks-gambar yang presisi melalui fusi fitur multi-layer ViT
- Penyelarasan teks-timestamp: mencocokkan informasi waktu tingkat frame dengan konten visual secara presisi untuk meningkatkan akurasi deteksi peristiwa dan aksi
Kemampuan model
- Agen pengoperasian smartphone dan PC: otomatisasi menjalankan aplikasi, mengklik tombol, dan mengisi formulir
- Penalaran berbasis gambar: memungkinkan analisis kompleks yang digabungkan dengan pemanggilan alat
- Dukungan pengembangan frontend: konversi sketsa menjadi halaman web, debugging UI
- Deteksi objek 2D/3D: menghasilkan ratusan kotak deteksi dan estimasi kedalaman
- Pengenalan umum: mengenali tokoh terkenal, merek, tumbuhan, hewan, dan karakter animasi
- Dukungan kreasi: storytelling berbasis gambar, copywriting, dan pembuatan skrip video
- Penyelesaian masalah STEM: penalaran langkah demi langkah, analisis hubungan sebab-akibat, dan pemecahan masalah sains
- Mengikuti instruksi kompleks: menangani kondisi multilangkah dan permintaan terstruktur
- Pemahaman dokumen: interpretasi PDF panjang, layout web, dan dukungan format QwenVL Markdown
- Percakapan multi-gambar: membandingkan dan menghubungkan beberapa gambar sambil mempertahankan konteks
- Pemahaman video: mendukung deteksi peristiwa dalam video berdurasi panjang hingga pembuatan kode
Kesimpulan
- Qwen3-VL adalah model multimodal open source yang melampaui model tertutup, dengan perkembangan menyeluruh dari pengenalan hingga penalaran dan eksekusi
- Model ini memantapkan posisinya bukan sekadar sebagai pengenal visual, melainkan sebagai model yang meluas ke pemahaman dunia, penalaran, dan tindakan, serta menyediakan fondasi untuk pemanfaatan agen di lingkungan nyata
2 komentar
Saya sempat menganggap luar biasa hanya dengan mengetahui siapa pemenang lomba lari dan siapa yang disalip dalam video promosi Gemini yang dirilis bahkan belum sampai setengah tahun lalu.
Saya benar-benar penasaran, sebenarnya apa yang diingat secara akurat oleh hal ini.
Opini Hacker News
Seperti yang sempat disebut kemarin, belakangan saya harus memproses ratusan gambar invoice berkualitas rendah untuk proyek konstruksi. Awalnya saya menjalankan skrip yang memakai PIL/opencv, pytesseract, sampai OpenAI, tetapi terlalu banyak yang gagal. Hari ini saya mencoba beberapa invoice dengan kualitas benar-benar berantakan memakai Qwen, dan ternyata semua informasi yang dibutuhkan bisa diekstrak tanpa masalah. Yang lebih mengejutkan, model ini bahkan memberi informasi bound box yang bisa dipakai untuk meningkatkan tesseract
Tiongkok sedang melakukan hal yang sama seperti di manufaktur: mengambil teknologi inti lalu berulang kali mengoptimalkannya 10x dari sisi biaya/efisiensi. Benar-benar mengesankan. Ini memang model yang terkenal di benchmark, tetapi hari ini rasanya pantas dianggap kandidat SOTA open source. Bahkan hari ini mereka juga merilis model tertutup 1 triliun parameter yang naik ke peringkat 3 di lm arena, model 80GB ada di peringkat 17, sementara gpt-oss 120b di peringkat 52
Link terkait
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
Makalah DeepStack
Dan alih-alih menggeneralisasi sebagai "orang Tiongkok", menurut saya lebih tepat memberi kredit pada tim Qwen itu sendiri. Di setiap negara di dunia ada lab yang luar biasa dan ada juga yang biasa saja
Jika Anda berada di San Francisco, jangan lewatkan kesempatan menghadiri acara resmi pertama tim Qwen di AS. Wakil presiden Qwen Lab akan berbicara langsung di SF teach week
Link acara
Ini kesempatan langka untuk berinteraksi langsung dengan anggota tim Qwen
Inti utama rilisan Qwen kali ini adalah mereka mencapai performa multimodal SOTA yang melampaui model proprietary (tertutup), sambil tetap membuka bobot modelnya. Dari pengujian awal saya, sepertinya itu memang benar, dan saya akan terus mencobanya. Sangat mengesankan
Secara realistis, model Qwen3-VL 235B parameter (FP16) tampaknya membutuhkan minimal 512GB RAM. Saya menduga bisa lebih besar lagi jika ingin mencakup context window yang masuk akal. Dengan asumsi tidak dijalankan di CPU, saya penasaran bagaimana cara menjalankannya di rumah dengan anggaran di bawah 10 ribu dolar. Jika CPU adalah satu-satunya pilihan, apakah pendekatan vLLM + beberapa sistem yang dihubungkan melalui jaringan (10/25/100Gbit) adalah opsi terbaik, atau ada pilihan terbaik lain?
Tidak harus dijalankan dalam FP16. Kebanyakan model bisa dikuantisasi hingga q8 dengan penurunan kualitas yang nyaris tak terasa, dan bahkan q4 ke bawah pun masih bisa berjalan dengan degradasi yang kecil. q8 saja tetap memerlukan 235GB RAM, jadi dengan RTX 5090 (32GB VRAM) Anda butuh 8 kartu, dan biayanya jelas tidak murah. Motherboard, CPU, dan pembagian 8 GPU juga harus diperhitungkan terpisah. Bisa saja memburu server mining bekas dengan RTX 3090 atau P40 lawas, tetapi pada GPU kelas konsumen, implementasi di bawah 10 ribu dolar secara realistis sangat sulit.
Menyebarkan model ke beberapa komputer tanpa NVLink akan menyebabkan penurunan kecepatan yang sangat besar, jadi pada praktiknya lebih disarankan satu mesin saja. Performa CPU juga tidak buruk. Bandwidth memori itu penting, jadi CPU server atau workstation dengan banyak channel DDR5 cocok, misalnya AMD Ryzen Threadripper 7965WX, 8-channel DDR5, dukungan 5200 MT/s, sekitar 2.500 dolar.
Terakhir, saya sarankan mempertimbangkan lagi apakah benar-benar perlu menjalankannya di rumah. Tergantung tujuannya, tetapi investasi hardware 10 ribu dolar bisa anjlok nilainya dalam beberapa tahun. Kredit cloud senilai 10 ribu dolar bisa dipakai jauh lebih lama
Karena Qwen merilis multimodal SOTA dengan open weights, hati para developer jadi condong ke Qwen. Setidaknya hati saya sudah sepenuhnya ke sana
Terima kasih atas kemurahan hati tim Qwen. Saya sudah memakai model ‘Thinking’ mereka untuk membuat workflow keren yang mengotomatisasi banyak pekerjaan internal yang membosankan
Model thinking Qwen
Sekarang, lewat rilisan ini saya juga berencana menerapkan workflow baru seperti mengklasifikasikan dan membuat caption foto makanan, foto pengguna, dan sebagainya. Sangat keren
Referensi model terkait tim Qwen
Saya yakin ini adalah pengumuman dengan angka benchmark terbanyak yang pernah saya lihat. Saya ingin memujinya karena ini bukan presentasi yang hanya memilih angka-angka curang yang paling menguntungkan
Sayangnya, Qwen3-VL juga masih gagal pada tes ‘anggota tubuh tambahan’. Saya menyisipkan foto hewan yang diedit di Photoshop dengan anggota tubuh ekstra, misalnya anjing dengan kaki tumbuh dari perut atau kucing dengan dua pasang kaki depan, tetapi seperti semua model lain, model ini tetap bersikeras bahwa jumlah anggota tubuh hewan itu normal. Bahkan ketika saya bilang “sepertinya ada kaki di perutnya”, model itu tetap berkata saya salah lihat dan terus bersikeras semuanya normal. Qwen bahkan menjawab bahwa jumlahnya tetap 4 meski sudah diberi tahu bahwa gambarnya telah diedit
Dataset jam
Contoh dadu D20
Kesimpulannya, tanpa membuat 1 juta data contoh untuk kasus seperti anggota tubuh tambahan, model tidak akan bisa menjawab dengan benar, dan masalah yang sama akan terus berulang untuk persoalan lain karena dataset baru harus terus dibuat