5 poin oleh GN⁺ 2024-12-26 | 1 komentar | Bagikan ke WhatsApp
  • Tim Alibaba Qwen mengumumkan model penalaran visual baru QvQ-72B-Preview
    • Menerima input gambar dan prompt, lalu melakukan penalaran yang terperinci
    • Awalnya ditandai sebagai Apache 2.0, tetapi sekarang diubah menjadi lisensi Qwen
  • Perbedaan dengan model sebelumnya, QwQ
    • QwQ difokuskan pada penalaran berbasis teks dan dirancang dengan mekanisme yang "mencerminkan batas pemikiran"
    • QvQ menambahkan input visual ke sini, sehingga dapat melakukan analisis yang lebih dalam berdasarkan gambar

Kasus penggunaan dan pengujian QvQ

  • Model QvQ dapat digunakan di Hugging Face Spaces
    • Jika memasukkan gambar dan satu prompt, ia menghasilkan respons yang sangat panjang, tetapi tidak mengizinkan prompt tambahan
    • Menganalisis gambar input sambil menjelaskan urutan proses penalaran
  • Hasil pengujian
    • Menghitung pelikan: Menggunakan prompt "Count the pelicans" untuk menghitung jumlah pelikan dalam foto
      • Berhasil menghitung tepat 4 pelikan, sementara menyingkirkan burung yang hanya terlihat sebagian
      • Menjelaskan penalaran dengan gaya yang ramah dan bersifat percakapan
    • Puzzle ARC-AGI: Mencoba menyelesaikan soal yang kompleks, tetapi tidak menghasilkan hasil yang tepat
      • Mengusulkan pendekatan kreatif mirip automata seluler
    • Estimasi tinggi dinosaurus (naga): Mencoba memperkirakan tinggi naga tanpa objek pembanding
      • Mengusulkan tinggi sekitar 8-9 kaki dan menunjukkan observasi yang tajam

Cara menjalankan model QvQ

  • Lingkungan hosting

  • Eksekusi lokal

    • Prince Canuma mengonversi model untuk framework Apple MLX sehingga dapat dijalankan lewat paket mlx-vlm
    • Berhasil dijalankan pada macOS M2 dengan RAM 64GB memakai versi kuantisasi 4-bit
      • Perintah eksekusi:
        uv run --with 'numpy<2.0' --with mlx-vlm python \  
          -m mlx_vlm.generate \  
          --model mlx-community/QVQ-72B-Preview-4bit \  
          --max-tokens 10000 \  
          --temp 0.0 \  
          --prompt "describe this" \  
          --image pelicans-on-bicycles-veo2.jpg  
        

Perubahan lisensi QvQ

  • Lisensi QvQ berubah dari Apache 2.0 menjadi Lisensi Qwen
    • Ini terlihat seperti perbaikan atas kesalahan awal
  • Model QwQ tetap mempertahankan lisensi Apache 2.0
    • Kebijakan lisensi yang dibedakan antara kedua model tampak jelas

Kesimpulan

  • QvQ adalah model penalaran visual yang kuat dengan memadukan gambar dan teks, menghasilkan output menarik dalam berbagai eksperimen
  • Menunjukkan potensi untuk dimanfaatkan lebih jauh pada pembaruan dan skenario penggunaan selanjutnya

1 komentar

 
GN⁺ 2024-12-26
Komentar Hacker News
  • Menjelaskan cara menjalankan model QVQ-72B-Preview-4bit di laptop M2 64GB untuk menganalisis gambar

    • Menggunakan perintah uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
    • Hasilnya dapat dilihat di tautan
  • Model ini menarik

    • Jika mengunggah gambar dan menanyakan pertanyaan seperti "cobalah bicara tentang apa yang kamu pikirkan saat melihat gambar ini", hasilnya bisa jadi menarik
    • Misalnya, dari gambar sandwich, model memberikan deskripsi detail dan membayangkan rasanya
  • Masalah puzzle word search digunakan sebagai uji coba, namun model QvQ gagal

    • Rilis Gemini di AI Studio juga gagal di awal, tetapi akhirnya berhasil menemukan kata setelah beberapa kali percobaan
    • Membuat program untuk memecahkan persoalan ini memberi hasil lebih baik daripada meminta solusi langsung
  • Menerima respons kosong saat memasukkan foto terkenal "Tank Man"

  • Dataset di mana anotator menyuarakan pikirannya saat melihat gambar disebut PixMo

    • Menyiratkan QvQ mungkin juga dilatih dengan cara yang serupa
  • Ditanya apakah model Q* bersifat open source

    • Saat diminta saran tentang bagaimana bersikap terhadap otoritas, model merekomendasikan ketaatan yang kuat
  • Gaya responsnya saat ditanya berapa banyak pelikan dalam foto pelikan cukup menghibur

    • Memberikan nuansa yang lebih santai dibanding GPT-4
  • Terdapat diskusi tentang isu lisensi model QvQ-72B-Preview

    • Ada kebingungan antara lisensi Apache 2.0 dan lisensi Qwen
  • Model QvQ menunjukkan performa unggul dalam menganalisis foto terkenal seperti selebriti, anjing, dan komik The New Yorker

  • Model ini juga mampu memproses gambar persamaan matematika