2 poin oleh GN⁺ 2024-07-11 | 1 komentar | Bagikan ke WhatsApp

Model bahasa-visual tidak mampu menjalankan tugas visual dengan baik

Ringkasan

  • Model bahasa-visual (VLM) menunjukkan performa tinggi dalam aplikasi pemrosesan gambar-teks, tetapi gagal pada 7 tugas visual yang sangat mudah bagi manusia.
  • Penelitian ini menunjukkan bahwa kemampuan persepsi visual VLM terbatas.

Task 1: Menghitung titik perpotongan garis

  • Gambar: Membuat 150 grafik garis 2D dengan dua ruas garis yang saling berpotongan
  • Pertanyaan: "Berapa kali garis biru dan merah berpotongan?"
  • Hasil: Model tidak mampu menghitung titik perpotongan secara akurat

Task 2: Dua lingkaran

  • Gambar: Membuat 672 gambar yang mencakup dua lingkaran dengan ukuran, jarak, dan arah yang bervariasi
  • Pertanyaan: "Apakah dua lingkaran saling bersentuhan?" atau "Apakah dua lingkaran saling tumpang tindih?"
  • Hasil: Model gagal secara konsisten pada jarak yang kecil

Task 3: Huruf yang dilingkari

  • Gambar: Membuat gambar yang setiap huruf dalam sebuah kata dilingkari dengan lingkaran merah
  • Pertanyaan: "Huruf mana yang dilingkari?"
  • Hasil: Model cenderung memprediksi huruf yang berdekatan

Task 4: Menghitung bentuk yang saling tumpang tindih

  • Gambar: Membuat gambar yang mencakup lingkaran dan segilima yang saling tumpang tindih seperti logo Olimpiade
  • Pertanyaan: "Ada berapa bentuk dalam gambar?"
  • Hasil: Model tidak mampu menghitung jumlah bentuk secara akurat

Task 5: Menghitung persegi panjang bertumpuk

  • Gambar: Membuat gambar yang mencakup persegi panjang bertumpuk
  • Pertanyaan: "Total ada berapa persegi panjang dalam gambar?"
  • Hasil: Model tidak mampu menghitung jumlah persegi panjang bertumpuk secara akurat

Task 6: Menghitung baris dan kolom pada grid

  • Gambar: Membuat gambar yang mencakup grid berisi teks dan grid kosong
  • Pertanyaan: "Ada berapa baris dan kolom pada grid?"
  • Hasil: Performa meningkat pada grid yang berisi teks, tetapi gagal pada grid kosong

Task 7: Menelusuri jalur satu warna

  • Gambar: Membuat gambar yang mencakup peta jalur kereta bawah tanah
  • Pertanyaan: "Ada berapa jalur satu warna dari A ke C?"
  • Hasil: Model tidak mampu menghitung jumlah jalur secara akurat

Ringkasan GN⁺

  • Penelitian ini menunjukkan bahwa kemampuan persepsi visual model bahasa-visual (VLM) terbatas.
  • VLM secara konsisten gagal pada tugas visual yang mudah bagi manusia.
  • Hal ini mengindikasikan perlunya penelitian lanjutan untuk meningkatkan kemampuan persepsi visual VLM.
  • Proyek lain dengan fungsi serupa antara lain GPT-4 dari OpenAI dan Gemini-1.5 Pro dari Google.

1 komentar

 
GN⁺ 2024-07-11
Pendapat Hacker News
  • Saya rasa kesimpulannya keliru

    • Analogi "penglihatan orang rabun" adalah ungkapan yang berlebihan
    • Ada contoh GPT-4v yang mampu menjalankan tugas visual yang detail dengan baik
    • Model GenAI besar menunjukkan kinerja yang baik saat dilatih dengan banyak data
    • Bukti yang diajukan penulis kurang memadai
  • Berbagi pengalaman tentang Captcha

    • GPT-4o membantu menyelesaikan masalah pintu garasi
    • Model bisa mengidentifikasi pemasangan yang salah di foto, tetapi melewatkan mur yang hilang
  • Masalah VLM dalam menghitung jumlah objek dan mengenali hubungan spasial

    • Set of Marks dari Microsoft dapat membantu
    • Pemberian label yang "bisa diucapkan" berkontribusi pada peningkatan performa
  • Kritik terhadap performa model SOTA saat ini

    • Gagal pada tugas yang mudah bagi manusia
    • Contoh: menghitung jumlah perpotongan garis, mendeteksi tumpang tindih lingkaran, dan sebagainya
  • Pendapat tentang cara VLM memproses gambar

    • Manusia bisa fokus pada area yang diminati, tetapi VLM memproses seluruh gambar pada resolusi yang sama
    • Ada rasa penasaran tentang cara melatih model dengan data interaksi
  • Saya rasa judul "Vision language models are blind" terlalu berlebihan

    • Cara VLM memproses input gambar memang berbeda
    • Pada resolusi rendah, detail bisa terlewat
    • Sebagai contoh, jawaban Sonnet 3.5 umumnya akurat, tetapi ada beberapa kesalahan
  • Pemahaman tentang cara model menafsirkan data masukan

    • LLM dan model multimodal kurang memiliki kemampuan penalaran yang konkret
    • Contoh: ChatGPT pandai merangkum teks, tetapi buruk dalam menghitung jumlah kata
    • Masalah inti dalam pengembangan AGI adalah menggabungkan kecerdasan tingkat tinggi dan tingkat rendah
  • Pendapat tentang level GPT-4

    • Mengutip pernyataan Mira Murati bahwa GPT-4 berada pada level siswa sekolah menengah
  • AI kesulitan membaca gambar jadwal sekolah

    • Saat ditanya tanggal tertentu, beberapa dijawab benar, tetapi beberapa terlewat atau malah membuat tanggal baru
    • Menghilangkan noise sedikit meningkatkan performa, tetapi tetap tidak dapat diandalkan