Model Qwen3-VL Dirilis - Penglihatan Lebih Tajam, Pemikiran Lebih Dalam, Eksekusi Lebih Luas

(qwen.ai)

6 poin oleh GN⁺ 2025-09-26 | 2 komentar | Bagikan ke WhatsApp

Qwen3-VL adalah generasi terbaru dari model multimodal vision-language, yang menghadirkan peningkatan performa di berbagai bidang seperti pemahaman dan generasi teks, pengenalan video, penalaran spasial, dan pemahaman konteks panjang
Model andalan Qwen3-VL-235B-A22B dirilis dalam versi Instruct dan Thinking, yang masing-masing mencatat hasil mutakhir dalam pengenalan visual dan penalaran multimodal
Model ini memperkuat beragam kemampuan penggunaan nyata seperti fitur agen, visual coding, penalaran spasial 2D/3D, serta pemahaman teks panjang dan video berdurasi panjang
Dukungan diperluas hingga OCR 32 bahasa, pemahaman dokumen kompleks, serta pemrosesan multi-gambar dan video, sehingga cocok untuk penggunaan sehari-hari maupun profesional
Hal ini diharapkan menghadirkan fondasi multimodal tingkat tertinggi bagi komunitas open source dan mempercepat penyelesaian masalah dunia nyata serta perkembangan agen AI di masa depan

Pengenalan Qwen3-VL

Qwen3-VL adalah model AI multimodal terbaru yang dikembangkan oleh QwenTeam, dengan kemampuan memproses dan memahami secara komprehensif berbagai bentuk data seperti gambar, teks, tabel, dokumen, rumus, dan grafik

Fitur utama

Fitur agen visual: mengenali GUI, mengklik tombol, memanggil alat, dan melakukan tugas otomatisasi di lingkungan komputer maupun mobile
Performa teks yang ditingkatkan: melalui pembelajaran simultan teks dan visual sejak tahap awal, model ini memperoleh kemampuan pemrosesan teks yang kuat setara model bahasa tunggal
Visual coding: mengubah gambar desain menjadi kode HTML, CSS, dan JavaScript, mewujudkan konsep 'coding sesuai yang dilihat'
Pemahaman spasial: diperluas dari koordinat absolut 2D ke koordinat relatif, serta mendukung grounding 3D untuk membangun fondasi robotika dan kendaraan otonom
Pemrosesan konteks panjang dan video berdurasi panjang: mendukung 256K token secara default, dapat diperluas hingga 1 juta token, dan mampu mengingat serta menelusuri video 2 jam dengan akurat
Optimasi penalaran (versi Thinking): unggul dalam penyelesaian masalah matematika dan STEM, serta mencatat performa terbaik pada benchmark seperti MathVision, MMMU, dan MathVista

Evaluasi performa

Versi Instruct: mencapai performa pengenalan visual yang melampaui model tertutup utama seperti Gemini 2.5 Pro dan GPT-5
Versi Thinking: mencapai hasil kelas dunia dalam penalaran multimodal matematika dan sains, terutama melampaui Gemini 2.5 Pro pada MathVision
Tugas yang berfokus pada teks: performanya setara dengan Qwen3-235B-A22B-2507
Uji video berdurasi panjang: membuktikan stabilitas tinggi dengan akurasi 99,5% bahkan pada input 1 juta token
OCR multibahasa: mencapai akurasi di atas 70% pada 32 dari 39 bahasa

Peningkatan arsitektur

Interleaved-MRoPE: memperkuat kemampuan memahami video berdurasi panjang dengan mendistribusikan dimensi waktu, tinggi, dan lebar secara berselang-seling
DeepStack: meningkatkan performa penyelarasan teks-gambar yang presisi melalui fusi fitur multi-layer ViT
Penyelarasan teks-timestamp: mencocokkan informasi waktu tingkat frame dengan konten visual secara presisi untuk meningkatkan akurasi deteksi peristiwa dan aksi

Kemampuan model

Agen pengoperasian smartphone dan PC: otomatisasi menjalankan aplikasi, mengklik tombol, dan mengisi formulir
Penalaran berbasis gambar: memungkinkan analisis kompleks yang digabungkan dengan pemanggilan alat
Dukungan pengembangan frontend: konversi sketsa menjadi halaman web, debugging UI
Deteksi objek 2D/3D: menghasilkan ratusan kotak deteksi dan estimasi kedalaman
Pengenalan umum: mengenali tokoh terkenal, merek, tumbuhan, hewan, dan karakter animasi
Dukungan kreasi: storytelling berbasis gambar, copywriting, dan pembuatan skrip video
Penyelesaian masalah STEM: penalaran langkah demi langkah, analisis hubungan sebab-akibat, dan pemecahan masalah sains
Mengikuti instruksi kompleks: menangani kondisi multilangkah dan permintaan terstruktur
Pemahaman dokumen: interpretasi PDF panjang, layout web, dan dukungan format QwenVL Markdown
Percakapan multi-gambar: membandingkan dan menghubungkan beberapa gambar sambil mempertahankan konteks
Pemahaman video: mendukung deteksi peristiwa dalam video berdurasi panjang hingga pembuatan kode

Kesimpulan

Qwen3-VL adalah model multimodal open source yang melampaui model tertutup, dengan perkembangan menyeluruh dari pengenalan hingga penalaran dan eksekusi
Model ini memantapkan posisinya bukan sekadar sebagai pengenal visual, melainkan sebagai model yang meluas ke pemahaman dunia, penalaran, dan tindakan, serta menyediakan fondasi untuk pemanfaatan agen di lingkungan nyata

2 komentar

crawler 2025-09-26

Saya sempat menganggap luar biasa hanya dengan mengetahui siapa pemenang lomba lari dan siapa yang disalip dalam video promosi Gemini yang dirilis bahkan belum sampai setengah tahun lalu.

Bahkan video berdurasi 2 jam pun bisa diingat dan dicari dengan akurat

Saya benar-benar penasaran, sebenarnya apa yang diingat secara akurat oleh hal ini.

GN⁺ 2025-09-26

Opini Hacker News

Seperti yang sempat disebut kemarin, belakangan saya harus memproses ratusan gambar invoice berkualitas rendah untuk proyek konstruksi. Awalnya saya menjalankan skrip yang memakai PIL/opencv, pytesseract, sampai OpenAI, tetapi terlalu banyak yang gagal. Hari ini saya mencoba beberapa invoice dengan kualitas benar-benar berantakan memakai Qwen, dan ternyata semua informasi yang dibutuhkan bisa diekstrak tanpa masalah. Yang lebih mengejutkan, model ini bahkan memberi informasi bound box yang bisa dipakai untuk meningkatkan tesseract
- Kalau butuh pekerjaan serupa, saya juga merekomendasikan Printed Text Recognition API dari Microsoft
- Saya penasaran kenapa memilih Qwen. Mistral punya model khusus yang dipromosikan untuk OCR, dan saat saya uji memang bekerja cukup baik pada buku-buku lama berbahasa Inggris (era 80-an dan 90-an)
- Saya suka menguji model seperti ini untuk membaca screenshot game Apple ][ dari era 80-an. Resolusinya sangat rendah dan sangat padat, jadi ini area yang biasanya sulit untuk kebanyakan model open source
- Saya juga pernah mencoba memperkirakan bound box batas lahan dari citra peta satelit dengan model VLLM, tetapi tidak membuahkan hasil. Penasaran apakah ada tips untuk mendapatkan hasil yang lebih baik
- Saya juga sempat mencoba mendeteksi layout hasil scan untuk meningkatkan performa OCR, tetapi pada akhirnya Qwen 2.5 VLM 7B yang sudah di-fine-tune tetap lebih baik. Saya rasa fine-tuning memang jawabannya
Tiongkok sedang melakukan hal yang sama seperti di manufaktur: mengambil teknologi inti lalu berulang kali mengoptimalkannya 10x dari sisi biaya/efisiensi. Benar-benar mengesankan. Ini memang model yang terkenal di benchmark, tetapi hari ini rasanya pantas dianggap kandidat SOTA open source. Bahkan hari ini mereka juga merilis model tertutup 1 triliun parameter yang naik ke peringkat 3 di lm arena, model 80GB ada di peringkat 17, sementara gpt-oss 120b di peringkat 52
Link terkait
- Penjelasan, nama produk, dan pembedaan versi tetap terasa tidak jelas. Saya tahu Qwen3-VL Plus (model baru) dan Qwen3-VL 235B (model lain) adalah model yang sepenuhnya berbeda meski namanya mirip, tetapi informasinya dibuat cukup kabur sehingga sulit tahu mana yang lebih unggul. Dari nama seperti Qwen-Plus-2025-09-11 dan qwen3-235b-a22b-instruct-2507 pun sulit memahami bedanya. Bahkan lebih buruk daripada OpenAI dalam menyampaikan penamaan dengan jelas
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- Ungkapan "mereka hanya mengoptimalkan" juga tidak akurat. Tim Qwen bahkan melahirkan ide-ide baru seperti DeepStack
  Makalah DeepStack
  Dan alih-alih menggeneralisasi sebagai "orang Tiongkok", menurut saya lebih tepat memberi kredit pada tim Qwen itu sendiri. Di setiap negara di dunia ada lab yang luar biasa dan ada juga yang biasa saja
- Menariknya, model seperti Kimi K2 terasa menghasilkan teks yang jauh lebih alami dibanding model-model Amerika. Skor benchmark-nya memang belum SOTA, tetapi pengalaman penggunaan nyatanya berbeda
- Amerika dulu juga fokus pada optimisasi seperti ini, tetapi dalam 10–15 tahun terakhir suasananya makin mengarah pada sekadar menambah resource dan mengabaikan optimisasi. Misalnya menambah RAM untuk progressive web app, mengganti CPU ke yang lebih bertenaga, atau mencari suplai daya lebih besar. Pada dasarnya saya merasa masalahnya adalah hal-hal yang dipelajari di kelas algoritma kampus tidak diterapkan di pekerjaan nyata. Sebaliknya, Tiongkok benar-benar menjalankannya, dan membuat Amerika terlihat makin konyol
Jika Anda berada di San Francisco, jangan lewatkan kesempatan menghadiri acara resmi pertama tim Qwen di AS. Wakil presiden Qwen Lab akan berbicara langsung di SF teach week
Link acara
Ini kesempatan langka untuk berinteraksi langsung dengan anggota tim Qwen
- Pendaftarannya sudah penuh ;-(
- Di zaman sekarang, masuk ke AS sendiri bisa 50:50 karena masalah visa, jadi saya cuma berharap mereka bisa datang dengan lancar
Inti utama rilisan Qwen kali ini adalah mereka mencapai performa multimodal SOTA yang melampaui model proprietary (tertutup), sambil tetap membuka bobot modelnya. Dari pengujian awal saya, sepertinya itu memang benar, dan saya akan terus mencobanya. Sangat mengesankan
- Implementasi input multimodal pada kebanyakan model sering kali performanya rendah. Saya juga tidak akan bilang Qwen sangat jauh di depan solusi komersial yang sudah ada, tetapi saya senang setidaknya hasil seperti ini dipublikasikan. Membuat model yang bisa menangani input multimodal sebaik ini sama sekali bukan hal mudah
- Sejujurnya, saya merasa model open source selalu cenderung mengklaim "setara dengan SOTA komersial" terlepas dari ukurannya
Secara realistis, model Qwen3-VL 235B parameter (FP16) tampaknya membutuhkan minimal 512GB RAM. Saya menduga bisa lebih besar lagi jika ingin mencakup context window yang masuk akal. Dengan asumsi tidak dijalankan di CPU, saya penasaran bagaimana cara menjalankannya di rumah dengan anggaran di bawah 10 ribu dolar. Jika CPU adalah satu-satunya pilihan, apakah pendekatan vLLM + beberapa sistem yang dihubungkan melalui jaringan (10/25/100Gbit) adalah opsi terbaik, atau ada pilihan terbaik lain?
- Apple Mac Studio dengan 512GB unified memory harganya sekitar 10 ribu dolar. Jika Anda memang butuh tenaga sebesar itu di rumah dan punya dananya, ini yang paling sederhana.
  Tidak harus dijalankan dalam FP16. Kebanyakan model bisa dikuantisasi hingga q8 dengan penurunan kualitas yang nyaris tak terasa, dan bahkan q4 ke bawah pun masih bisa berjalan dengan degradasi yang kecil. q8 saja tetap memerlukan 235GB RAM, jadi dengan RTX 5090 (32GB VRAM) Anda butuh 8 kartu, dan biayanya jelas tidak murah. Motherboard, CPU, dan pembagian 8 GPU juga harus diperhitungkan terpisah. Bisa saja memburu server mining bekas dengan RTX 3090 atau P40 lawas, tetapi pada GPU kelas konsumen, implementasi di bawah 10 ribu dolar secara realistis sangat sulit.
  Menyebarkan model ke beberapa komputer tanpa NVLink akan menyebabkan penurunan kecepatan yang sangat besar, jadi pada praktiknya lebih disarankan satu mesin saja. Performa CPU juga tidak buruk. Bandwidth memori itu penting, jadi CPU server atau workstation dengan banyak channel DDR5 cocok, misalnya AMD Ryzen Threadripper 7965WX, 8-channel DDR5, dukungan 5200 MT/s, sekitar 2.500 dolar.
  Terakhir, saya sarankan mempertimbangkan lagi apakah benar-benar perlu menjalankannya di rumah. Tergantung tujuannya, tetapi investasi hardware 10 ribu dolar bisa anjlok nilainya dalam beberapa tahun. Kredit cloud senilai 10 ribu dolar bisa dipakai jauh lebih lama
- Opsi selain CPU biasanya memerlukan peningkatan kapasitas listrik, dan menjalankan beberapa mesin yang masing-masing mengonsumsi 2–3kW di sirkuit listrik berbeda akan menambah biaya yang sangat besar
Karena Qwen merilis multimodal SOTA dengan open weights, hati para developer jadi condong ke Qwen. Setidaknya hati saya sudah sepenuhnya ke sana
- Rasanya pertandingan ini sudah selesai. Kalau melihat daftar penulis utama makalah-makalah top dari AS belakangan ini, nama-nama Tionghoa ada di mana-mana
- Ada juga fakta bahwa mereka tidak mengejar profit, jadi mereka bermain di permainan yang berbeda dengan aturan yang berbeda
- Saya sendiri juga penasaran kenapa mereka berusaha sejauh ini untuk merebut hati orang-orang
Terima kasih atas kemurahan hati tim Qwen. Saya sudah memakai model ‘Thinking’ mereka untuk membuat workflow keren yang mengotomatisasi banyak pekerjaan internal yang membosankan
Model thinking Qwen
Sekarang, lewat rilisan ini saya juga berencana menerapkan workflow baru seperti mengklasifikasikan dan membuat caption foto makanan, foto pengguna, dan sebagainya. Sangat keren
Referensi model terkait tim Qwen
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
Saya yakin ini adalah pengumuman dengan angka benchmark terbanyak yang pernah saya lihat. Saya ingin memujinya karena ini bukan presentasi yang hanya memilih angka-angka curang yang paling menguntungkan
- Di area yang benchmark-nya sudah jenuh, rasanya angka-angka itu sendiri kini sudah tidak terlalu bermakna lagi
Sayangnya, Qwen3-VL juga masih gagal pada tes ‘anggota tubuh tambahan’. Saya menyisipkan foto hewan yang diedit di Photoshop dengan anggota tubuh ekstra, misalnya anjing dengan kaki tumbuh dari perut atau kucing dengan dua pasang kaki depan, tetapi seperti semua model lain, model ini tetap bersikeras bahwa jumlah anggota tubuh hewan itu normal. Bahkan ketika saya bilang “sepertinya ada kaki di perutnya”, model itu tetap berkata saya salah lihat dan terus bersikeras semuanya normal. Qwen bahkan menjawab bahwa jumlahnya tetap 4 meski sudah diberi tahu bahwa gambarnya telah diedit
- Seperti semua VLM, model ini lemah pada kasus-kasus pengecualian. Membaca jam analog pun dulu hanya berhasil pada model yang secara khusus dituning dengan 1 juta gambar sintetis yang sudah dimodifikasi
  Dataset jam
  Contoh dadu D20
  Kesimpulannya, tanpa membuat 1 juta data contoh untuk kasus seperti anggota tubuh tambahan, model tidak akan bisa menjawab dengan benar, dan masalah yang sama akan terus berulang untuk persoalan lain karena dataset baru harus terus dibuat
- Ini jelas bukan model yang cocok untuk menghitung jumlah anggota tubuh pada spesies yang aneh. Sebaliknya, pada topik-topik yang banyak muncul di data latihnya, model ini mungkin tidak kekurangan
- Saya penasaran, kalau memakai fitur perintah edit gambar pada model Qwen dan memintanya mengubah bagian lain tanpa menyentuh jumlah anggota tubuh, apakah hasilnya tetap akan berusaha “menormalkan” jumlah anggota tubuh juga?