Ulasan penggunaan model penalaran visual baru QvQ dari Qwen
(simonwillison.net)- Tim Alibaba Qwen mengumumkan model penalaran visual baru QvQ-72B-Preview
- Menerima input gambar dan prompt, lalu melakukan penalaran yang terperinci
- Awalnya ditandai sebagai Apache 2.0, tetapi sekarang diubah menjadi lisensi Qwen
- Perbedaan dengan model sebelumnya, QwQ
- QwQ difokuskan pada penalaran berbasis teks dan dirancang dengan mekanisme yang "mencerminkan batas pemikiran"
- QvQ menambahkan input visual ke sini, sehingga dapat melakukan analisis yang lebih dalam berdasarkan gambar
Kasus penggunaan dan pengujian QvQ
- Model QvQ dapat digunakan di Hugging Face Spaces
- Jika memasukkan gambar dan satu prompt, ia menghasilkan respons yang sangat panjang, tetapi tidak mengizinkan prompt tambahan
- Menganalisis gambar input sambil menjelaskan urutan proses penalaran
- Hasil pengujian
- Menghitung pelikan: Menggunakan prompt "Count the pelicans" untuk menghitung jumlah pelikan dalam foto
- Berhasil menghitung tepat 4 pelikan, sementara menyingkirkan burung yang hanya terlihat sebagian
- Menjelaskan penalaran dengan gaya yang ramah dan bersifat percakapan
- Puzzle ARC-AGI: Mencoba menyelesaikan soal yang kompleks, tetapi tidak menghasilkan hasil yang tepat
- Mengusulkan pendekatan kreatif mirip automata seluler
- Estimasi tinggi dinosaurus (naga): Mencoba memperkirakan tinggi naga tanpa objek pembanding
- Mengusulkan tinggi sekitar 8-9 kaki dan menunjukkan observasi yang tajam
- Menghitung pelikan: Menggunakan prompt "Count the pelicans" untuk menghitung jumlah pelikan dalam foto
Cara menjalankan model QvQ
-
Lingkungan hosting
- Dapat menguji model berbasis bobot GPU di Hugging Face Spaces
- Gunakan paket Python qwen-vl-utils untuk menjalankannya
-
Eksekusi lokal
- Prince Canuma mengonversi model untuk framework Apple MLX sehingga dapat dijalankan lewat paket mlx-vlm
- Berhasil dijalankan pada macOS M2 dengan RAM 64GB memakai versi kuantisasi 4-bit
- Perintah eksekusi:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- Perintah eksekusi:
Perubahan lisensi QvQ
- Lisensi QvQ berubah dari Apache 2.0 menjadi Lisensi Qwen
- Ini terlihat seperti perbaikan atas kesalahan awal
- Model QwQ tetap mempertahankan lisensi Apache 2.0
- Kebijakan lisensi yang dibedakan antara kedua model tampak jelas
Kesimpulan
- QvQ adalah model penalaran visual yang kuat dengan memadukan gambar dan teks, menghasilkan output menarik dalam berbagai eksperimen
- Menunjukkan potensi untuk dimanfaatkan lebih jauh pada pembaruan dan skenario penggunaan selanjutnya
1 komentar
Komentar Hacker News
Menjelaskan cara menjalankan model QVQ-72B-Preview-4bit di laptop M2 64GB untuk menganalisis gambar
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgModel ini menarik
Masalah puzzle word search digunakan sebagai uji coba, namun model QvQ gagal
Menerima respons kosong saat memasukkan foto terkenal "Tank Man"
Dataset di mana anotator menyuarakan pikirannya saat melihat gambar disebut PixMo
Ditanya apakah model Q* bersifat open source
Gaya responsnya saat ditanya berapa banyak pelikan dalam foto pelikan cukup menghibur
Terdapat diskusi tentang isu lisensi model QvQ-72B-Preview
Model QvQ menunjukkan performa unggul dalam menganalisis foto terkenal seperti selebriti, anjing, dan komik The New Yorker
Model ini juga mampu memproses gambar persamaan matematika