- Berdasarkan seri Qwen2.5-VL yang dirilis pada bulan Januari, model ini dioptimalkan melalui reinforcement learning, dan model VL baru berskala 32B parameter, Qwen2.5-VL-32B-Instruct, di-open-source-kan di bawah lisensi Apache 2.0
- Dibandingkan dengan model sebelumnya, karakteristik model VL 32B ini adalah:
- Respons yang lebih selaras dengan preferensi manusia: Gaya output disesuaikan untuk memberikan jawaban yang lebih rinci dan tertata dengan baik.
- Penalaran matematis: Akurasi dalam menyelesaikan soal matematika yang kompleks meningkat secara signifikan.
- Pemahaman dan penalaran gambar yang mendetail: Akurasi dan analisis detail ditingkatkan dalam tugas seperti parsing gambar, pengenalan konten, dan penalaran logika visual.
Performa
- Melalui benchmarking yang luas terhadap model-model mutakhir di kelas yang sama, Qwen2.5-VL-32B-Instruct melampaui model acuan seperti Mistral-Small-3.1-24B dan Gemma-3-27B-IT, serta menunjukkan hasil yang bahkan melampaui Qwen2-VL-72B-Instruct yang lebih besar.
- Secara khusus, model ini memiliki keunggulan signifikan pada tugas multimodal yang kompleks dan membutuhkan penalaran multi-tahap seperti MMMU, MMMU-Pro, dan MathVista.
- Di MM-MT-Bench, yang menekankan evaluasi pengalaman pengguna yang subjektif, model ini menunjukkan hasil yang jauh lebih unggul dibanding Qwen2-VL-72B-Instruct.
- Tidak hanya dalam kemampuan visual, model ini juga mencapai performa tingkat tertinggi dalam kemampuan teks murni pada skala yang sama.
1 komentar
Komentar Hacker News
uvtanpa perlu memasang library