Ulasan penggunaan model penalaran visual baru QvQ dari Qwen

(simonwillison.net)

5 poin oleh GN⁺ 2024-12-26 | 1 komentar | Bagikan ke WhatsApp

Tim Alibaba Qwen mengumumkan model penalaran visual baru QvQ-72B-Preview
- Menerima input gambar dan prompt, lalu melakukan penalaran yang terperinci
- Awalnya ditandai sebagai Apache 2.0, tetapi sekarang diubah menjadi lisensi Qwen
Perbedaan dengan model sebelumnya, QwQ
- QwQ difokuskan pada penalaran berbasis teks dan dirancang dengan mekanisme yang "mencerminkan batas pemikiran"
- QvQ menambahkan input visual ke sini, sehingga dapat melakukan analisis yang lebih dalam berdasarkan gambar

Kasus penggunaan dan pengujian QvQ

Model QvQ dapat digunakan di Hugging Face Spaces
- Jika memasukkan gambar dan satu prompt, ia menghasilkan respons yang sangat panjang, tetapi tidak mengizinkan prompt tambahan
- Menganalisis gambar input sambil menjelaskan urutan proses penalaran
Hasil pengujian
- Menghitung pelikan: Menggunakan prompt "Count the pelicans" untuk menghitung jumlah pelikan dalam foto
  - Berhasil menghitung tepat 4 pelikan, sementara menyingkirkan burung yang hanya terlihat sebagian
  - Menjelaskan penalaran dengan gaya yang ramah dan bersifat percakapan
- Puzzle ARC-AGI: Mencoba menyelesaikan soal yang kompleks, tetapi tidak menghasilkan hasil yang tepat
  - Mengusulkan pendekatan kreatif mirip automata seluler
- Estimasi tinggi dinosaurus (naga): Mencoba memperkirakan tinggi naga tanpa objek pembanding
  - Mengusulkan tinggi sekitar 8-9 kaki dan menunjukkan observasi yang tajam

Cara menjalankan model QvQ

Lingkungan hosting
- Dapat menguji model berbasis bobot GPU di Hugging Face Spaces
- Gunakan paket Python qwen-vl-utils untuk menjalankannya

Eksekusi lokal

Prince Canuma mengonversi model untuk framework Apple MLX sehingga dapat dijalankan lewat paket mlx-vlm

Berhasil dijalankan pada macOS M2 dengan RAM 64GB memakai versi kuantisasi 4-bit

Perintah eksekusi:

uv run --with 'numpy<2.0' --with mlx-vlm python \  
  -m mlx_vlm.generate \  
  --model mlx-community/QVQ-72B-Preview-4bit \  
  --max-tokens 10000 \  
  --temp 0.0 \  
  --prompt "describe this" \  
  --image pelicans-on-bicycles-veo2.jpg

Perubahan lisensi QvQ

Lisensi QvQ berubah dari Apache 2.0 menjadi Lisensi Qwen
- Ini terlihat seperti perbaikan atas kesalahan awal
Model QwQ tetap mempertahankan lisensi Apache 2.0
- Kebijakan lisensi yang dibedakan antara kedua model tampak jelas

Kesimpulan

QvQ adalah model penalaran visual yang kuat dengan memadukan gambar dan teks, menghasilkan output menarik dalam berbagai eksperimen
Menunjukkan potensi untuk dimanfaatkan lebih jauh pada pembaruan dan skenario penggunaan selanjutnya

1 komentar

GN⁺ 2024-12-26

Komentar Hacker News

Menjelaskan cara menjalankan model QVQ-72B-Preview-4bit di laptop M2 64GB untuk menganalisis gambar
- Menggunakan perintah uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
- Hasilnya dapat dilihat di tautan
Model ini menarik
- Jika mengunggah gambar dan menanyakan pertanyaan seperti "cobalah bicara tentang apa yang kamu pikirkan saat melihat gambar ini", hasilnya bisa jadi menarik
- Misalnya, dari gambar sandwich, model memberikan deskripsi detail dan membayangkan rasanya
Masalah puzzle word search digunakan sebagai uji coba, namun model QvQ gagal
- Rilis Gemini di AI Studio juga gagal di awal, tetapi akhirnya berhasil menemukan kata setelah beberapa kali percobaan
- Membuat program untuk memecahkan persoalan ini memberi hasil lebih baik daripada meminta solusi langsung
Menerima respons kosong saat memasukkan foto terkenal "Tank Man"
Dataset di mana anotator menyuarakan pikirannya saat melihat gambar disebut PixMo
- Menyiratkan QvQ mungkin juga dilatih dengan cara yang serupa
Ditanya apakah model Q* bersifat open source
- Saat diminta saran tentang bagaimana bersikap terhadap otoritas, model merekomendasikan ketaatan yang kuat
Gaya responsnya saat ditanya berapa banyak pelikan dalam foto pelikan cukup menghibur
- Memberikan nuansa yang lebih santai dibanding GPT-4
Terdapat diskusi tentang isu lisensi model QvQ-72B-Preview
- Ada kebingungan antara lisensi Apache 2.0 dan lisensi Qwen
Model QvQ menunjukkan performa unggul dalam menganalisis foto terkenal seperti selebriti, anjing, dan komik The New Yorker
Model ini juga mampu memproses gambar persamaan matematika