Qwen2.5-VL-32B - Model yang Lebih Cerdas dan Ringan

(qwenlm.github.io)

5 poin oleh GN⁺ 2025-03-25 | 1 komentar | Bagikan ke WhatsApp

Berdasarkan seri Qwen2.5-VL yang dirilis pada bulan Januari, model ini dioptimalkan melalui reinforcement learning, dan model VL baru berskala 32B parameter, Qwen2.5-VL-32B-Instruct, di-open-source-kan di bawah lisensi Apache 2.0
Dibandingkan dengan model sebelumnya, karakteristik model VL 32B ini adalah:
- Respons yang lebih selaras dengan preferensi manusia: Gaya output disesuaikan untuk memberikan jawaban yang lebih rinci dan tertata dengan baik.
- Penalaran matematis: Akurasi dalam menyelesaikan soal matematika yang kompleks meningkat secara signifikan.
- Pemahaman dan penalaran gambar yang mendetail: Akurasi dan analisis detail ditingkatkan dalam tugas seperti parsing gambar, pengenalan konten, dan penalaran logika visual.

Performa

Melalui benchmarking yang luas terhadap model-model mutakhir di kelas yang sama, Qwen2.5-VL-32B-Instruct melampaui model acuan seperti Mistral-Small-3.1-24B dan Gemma-3-27B-IT, serta menunjukkan hasil yang bahkan melampaui Qwen2-VL-72B-Instruct yang lebih besar.
Secara khusus, model ini memiliki keunggulan signifikan pada tugas multimodal yang kompleks dan membutuhkan penalaran multi-tahap seperti MMMU, MMMU-Pro, dan MathVista.
Di MM-MT-Bench, yang menekankan evaluasi pengalaman pengguna yang subjektif, model ini menunjukkan hasil yang jauh lebih unggul dibanding Qwen2-VL-72B-Instruct.
Tidak hanya dalam kemampuan visual, model ini juga mencapai performa tingkat tertinggi dalam kemampuan teks murni pada skala yang sama.

1 komentar

GN⁺ 2025-03-25

Komentar Hacker News

Hari besar untuk peluncuran model open source dari Tiongkok. DeepSeek-v3-0324 dirilis hari ini dengan pembaruan lisensi MIT (sebelumnya memakai lisensi DeepSeek kustom)
Beberapa bulan lalu saya memakai Llama vision 3.2, dan sangat kecewa dengan kecepatan serta kualitas hasilnya. Saat mencari alternatif di Hugging Face, saya menemukan Qwen. Perbedaan akurasi dan kecepatannya sangat besar. Jika diminta menganalisis gambar dan memberikan respons, dengan 4090 saya mendapat jawaban yang sebagian besar akurat hanya dalam setengah detik. Yang lebih mengejutkan, saat mengekstrak nama entitas dari gambar, model ini memberikan nama lengkap meskipun namanya terpotong (misalnya, jika "Coca-C" terlihat samar di latar belakang, model ini mengembalikan "Coca-Cola"). Model ini juga menangani entitas yang kurang dikenal atau hanya dikenal di wilayah tertentu dengan baik. Sejak memakai Qwen, saya tidak pernah kembali ke Llama atau model vision lain
Model 32B sekarang adalah salah satu ukuran model favorit saya. Sangat kuat, tetapi cukup kecil untuk dijalankan di satu GPU atau Mac notebook dengan spesifikasi yang lumayan (32GB ke atas)
Model ini sekarang tersedia di MLX dalam berbagai ukuran
- berjalan dengan uv tanpa perlu memasang library
- saya mengunduh model sekitar 18GB dan mendapatkan hasil yang sangat mengesankan
Mungkin ini pertanyaan bodoh, tetapi saya penasaran bagaimana OpenAI, Claude, dan lainnya bisa memiliki valuasi sebesar itu jika mempertimbangkan semua model open source yang ada. Saya tidak bilang mereka akan hilang atau mengecil, tetapi saya penasaran kenapa nilainya bisa sebesar itu
Model open-weight keluar terlalu cepat sehingga sulit diikuti. Saya penasaran apakah ada orang yang mengelola daftar untuk menjaga mana yang "terkini" dari tiap model
Saya penasaran apakah ada yang tahu dampak menjadikan model bersifat multimodal terhadap kemampuan teksnya. Artikelnya mengklaim performanya juga bagus pada teks murni, tetapi saya penasaran apakah ada analisis tentang seberapa besar dampaknya dalam praktik. Beberapa orang berpendapat model justru akan menjadi lebih baik dalam teks, tetapi sulit dipercaya tanpa data
Saya ingin tahu lebih jelas ukuran video card yang dibutuhkan. Menurut tautan Hugging Face, ini bfloat16, jadi sepertinya minimal butuh 64GB. Apakah -7B bisa berjalan di kartu AMD 16GB saya?
Qwen dibuat oleh Alibaba Cloud (tidak disebutkan di mana pun dalam postingan blog)
Hari ini Qwen, besok model SOTA baru dari Google, minggu depan R2 akan keluar. Kita masih belum mencapai batasnya

Qwen2.5-VL-32B - Model yang Lebih Cerdas dan Ringan

Performa

Bacaan terkait

1 komentar

Komentar Hacker News