Model bahasa-visual tidak mampu menjalankan tugas visual dengan baik
Ringkasan
- Model bahasa-visual (VLM) menunjukkan performa tinggi dalam aplikasi pemrosesan gambar-teks, tetapi gagal pada 7 tugas visual yang sangat mudah bagi manusia.
- Penelitian ini menunjukkan bahwa kemampuan persepsi visual VLM terbatas.
Task 1: Menghitung titik perpotongan garis
- Gambar: Membuat 150 grafik garis 2D dengan dua ruas garis yang saling berpotongan
- Pertanyaan: "Berapa kali garis biru dan merah berpotongan?"
- Hasil: Model tidak mampu menghitung titik perpotongan secara akurat
Task 2: Dua lingkaran
- Gambar: Membuat 672 gambar yang mencakup dua lingkaran dengan ukuran, jarak, dan arah yang bervariasi
- Pertanyaan: "Apakah dua lingkaran saling bersentuhan?" atau "Apakah dua lingkaran saling tumpang tindih?"
- Hasil: Model gagal secara konsisten pada jarak yang kecil
Task 3: Huruf yang dilingkari
- Gambar: Membuat gambar yang setiap huruf dalam sebuah kata dilingkari dengan lingkaran merah
- Pertanyaan: "Huruf mana yang dilingkari?"
- Hasil: Model cenderung memprediksi huruf yang berdekatan
Task 4: Menghitung bentuk yang saling tumpang tindih
- Gambar: Membuat gambar yang mencakup lingkaran dan segilima yang saling tumpang tindih seperti logo Olimpiade
- Pertanyaan: "Ada berapa bentuk dalam gambar?"
- Hasil: Model tidak mampu menghitung jumlah bentuk secara akurat
Task 5: Menghitung persegi panjang bertumpuk
- Gambar: Membuat gambar yang mencakup persegi panjang bertumpuk
- Pertanyaan: "Total ada berapa persegi panjang dalam gambar?"
- Hasil: Model tidak mampu menghitung jumlah persegi panjang bertumpuk secara akurat
Task 6: Menghitung baris dan kolom pada grid
- Gambar: Membuat gambar yang mencakup grid berisi teks dan grid kosong
- Pertanyaan: "Ada berapa baris dan kolom pada grid?"
- Hasil: Performa meningkat pada grid yang berisi teks, tetapi gagal pada grid kosong
Task 7: Menelusuri jalur satu warna
- Gambar: Membuat gambar yang mencakup peta jalur kereta bawah tanah
- Pertanyaan: "Ada berapa jalur satu warna dari A ke C?"
- Hasil: Model tidak mampu menghitung jumlah jalur secara akurat
Ringkasan GN⁺
- Penelitian ini menunjukkan bahwa kemampuan persepsi visual model bahasa-visual (VLM) terbatas.
- VLM secara konsisten gagal pada tugas visual yang mudah bagi manusia.
- Hal ini mengindikasikan perlunya penelitian lanjutan untuk meningkatkan kemampuan persepsi visual VLM.
- Proyek lain dengan fungsi serupa antara lain GPT-4 dari OpenAI dan Gemini-1.5 Pro dari Google.
1 komentar
Pendapat Hacker News
Saya rasa kesimpulannya keliru
Berbagi pengalaman tentang Captcha
Masalah VLM dalam menghitung jumlah objek dan mengenali hubungan spasial
Kritik terhadap performa model SOTA saat ini
Pendapat tentang cara VLM memproses gambar
Saya rasa judul "Vision language models are blind" terlalu berlebihan
Pemahaman tentang cara model menafsirkan data masukan
Pendapat tentang level GPT-4
AI kesulitan membaca gambar jadwal sekolah