[Terjemahan] VLMs are blind: penelitian tentang tugas visual yang gagal dilakukan model vision-language (padahal mudah bagi manusia) (feat. BlindTest)

(discuss.pytorch.kr)

8 poin oleh ninebow 2024-07-13 | Belum ada komentar. | Bagikan ke WhatsApp

Pengantar makalah VLMs(Vision-Language Models) are Blind

Selama 8 bulan terakhir, kemunculan model vision-language (VLM) seperti GPT-4V(ision) telah memicu lonjakan aplikasi pemrosesan gambar-teks. VLM (Vision-Language Model, model vision-language) dapat mengidentifikasi objek dalam sebuah adegan secara akurat dan, berdasarkan itu, menjalankan tugas yang kompleks. Contohnya adalah tugas seperti menghitung biaya bir di atas meja berdasarkan gambar adegan dan gambar menu. Namun, VLM menunjukkan keterbatasan yang mengejutkan pada tugas tertentu, sehingga memunculkan pertanyaan apakah model ini benar-benar tidak mengenali gambar seperti manusia. Untuk mengevaluasi keterbatasan tersebut, makalah ini mengusulkan BlindTest, sebuah kumpulan 7 tugas visual. BlindTest berisi tugas-tugas yang sangat mudah bagi manusia, tetapi menjadi tantangan besar bagi VLM mutakhir.

Masalah utama yang dibahas dalam makalah ini adalah kesenjangan antara kemampuan VLM yang dipersepsikan dan performa nyatanya pada tugas visual dasar. VLM menunjukkan hasil yang sangat baik pada benchmark visi tingkat tinggi, tetapi kesulitan pada tugas sederhana yang menuntut pemahaman spasial yang akurat dan penghitungan jumlah. Menyelesaikan masalah ini sangat penting untuk memajukan penerapan praktis VLM dalam skenario dunia nyata.

Beberapa VLM yang baru dikembangkan mengintegrasikan visi dan bahasa sejak awal dalam arsitektur model, sehingga memungkinkan interaksi yang lebih mulus antara data visual dan data teks. Pendekatan lain menggabungkan komponen visi dan bahasa pada tahap yang lebih akhir, sehingga kuat dalam pemahaman bahasa tetapi menunjukkan performa yang lebih lemah dalam persepsi visual. Benchmark saat ini mengevaluasi VLM pada tugas penalaran visual yang kompleks seperti MMMU dan AI2D, tetapi sering kali mengabaikan tugas visual tingkat rendah.

Makalah ini memperkenalkan benchmark baru bernama BlindTest untuk menelaah keterbatasan model vision-language (VLM) saat ini. BlindTest terdiri dari tugas visual yang intuitif dan mudah bagi manusia, seperti memeriksa apakah dua lingkaran saling tumpang tindih atau menghitung jumlah bentuk dalam sebuah gambar.

Model vision-language (VLM, Vision-Language Model)

Para penulis menguji empat VLM mutakhir: GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet, dan Claude-3.5 Sonnet. Model-model ini menempati peringkat tinggi pada benchmark vision multimodal terbaru dan menunjukkan performa unggul di berbagai topik. Misalnya, mereka meraih hasil sangat baik pada benchmark seperti MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA, dan EgoSchema. Namun, benchmark yang ada hanya mengukur performa umum VLM dan tidak dapat mengungkap keterbatasan spesifiknya dengan jelas. Karena itu, kami merancang benchmark baru untuk mengevaluasi bagaimana VLM merespons tugas visual sederhana. Benchmark ini mencakup bentuk geometris 2D dasar dan membutuhkan pengetahuan latar yang minimal.

Benchmark BlindTest

BlindTest terdiri dari 7 tugas visual sederhana, dan setiap tugas mengevaluasi bagaimana VLM melakukan persepsi visual dasar.

Task 1. Menghitung jumlah titik perpotongan 📈📉

Dalam tugas ini, diuji kasus ketika dua fungsi linear 2-segmen memiliki 0, 1, atau 2 titik perpotongan. Untuk itu, dibuat 150 gambar plot garis 2D. Setiap plot garis didefinisikan oleh tiga koordinat x tetap dan koordinat y yang dipilih secara acak, lalu digambar di atas kanvas putih. Dalam proses ini, garis-garis tersebut diatur agar memiliki tepat 0, 1, atau 2 titik perpotongan.

Setiap pertanyaan diajukan dengan dua frasa yang berbeda. Yang pertama adalah "Berapa kali plot garis biru dan merah saling berpotongan?(How many times do the blue and red line plots cross each other?)", dan yang kedua adalah "Berapa kali garis biru dan merah berpotongan?(How many times do the blue and red lines intersect?)". Ini dimaksudkan untuk menilai apakah VLM dapat mengenali perbedaan halus dalam perumusan kalimat dan mengekstrak makna yang sama. Variasi redaksi pertanyaan berguna untuk menguji kemampuan pemahaman model dari berbagai sudut.

Performa empat model pada tugas menghitung jumlah perpotongan garis adalah sebagai berikut. GPT-4o menunjukkan akurasi 48.67%, Gemini-1.5 Pro 69.67%, Sonnet-3 64.00%, dan Sonnet-3.5 77.33%. Ini menunjukkan bahwa VLM mengalami kesulitan dalam menentukan apakah garis-garis tersebut berpotongan. Secara khusus, besarnya perbedaan performa antar-model mengindikasikan bahwa kemampuan pemrosesan visual tiap model berbeda-beda. Hasil ini menekankan perlunya riset lanjutan untuk meningkatkan kemampuan pemahaman visual VLM.

Task 2. Memeriksa status dua lingkaran 🔴🔵

Dalam tugas ini, dievaluasi apakah dua lingkaran terisi dengan ukuran yang sama saling bersentuhan atau bertumpang tindih. Untuk itu, dibuat 672 gambar. Ukuran, jarak, dan arah lingkaran diatur secara beragam, dengan ukuran kanvas 384, 769, dan 1155 piksel. Diameter lingkaran diatur menjadi 1/4, 1/5, 1/6, atau 1/7 dari ukuran kanvas, sedangkan jarak dan arah lingkaran ditentukan secara acak.

Setiap pertanyaan diajukan dengan dua frasa yang berbeda. Yang pertama adalah "Apakah dua lingkaran saling bersentuhan? Jawab Ya/Tidak.(Are the two circles touching each other? Answer with Yes/No)", dan yang kedua adalah "Apakah dua lingkaran saling tumpang tindih? Jawab Ya/Tidak.(Are the two circles overlapping? Answer with Yes/No.)". Ini dimaksudkan untuk menilai apakah model dapat mengenali perbedaan halus dalam perumusan kalimat dan mengekstrak makna yang sama. Variasi redaksi pertanyaan berguna untuk menguji kemampuan pemahaman model dari berbagai sudut.

Performa empat model dalam menentukan apakah dua lingkaran saling bersentuhan adalah sebagai berikut. GPT-4o mencatat rata-rata akurasi 72.69%, Gemini-1.5 Pro 92.78%, Sonnet-3 84.52%, dan Sonnet-3.5 91.66%. Ini menunjukkan bahwa VLM memiliki performa tertentu dalam menentukan apakah lingkaran saling tumpang tindih, tetapi masih memerlukan perbaikan. Secara khusus, besarnya perbedaan performa antar-model mengindikasikan bahwa kemampuan pemrosesan visual tiap model berbeda-beda.

Task 3. Mengidentifikasi huruf yang dilingkari 🔤⭕

Dalam tugas ini, dibuat gambar dari berbagai string dengan setiap karakter dilingkari secara berurutan, untuk mengevaluasi apakah VLM dapat mengenali karakter mana yang ditandai dengan lingkaran. String yang dipilih adalah Acknowledgement, Subdermatoglyphic, dan tHyUiKaRbNqWeOpXcZvM, lalu setiap karakter dalam masing-masing string ditandai dengan lingkaran secara berurutan. Melalui cara ini, dievaluasi apakah VLM dapat mengenali jarak kecil antarhuruf.

Pertanyaan diajukan dengan dua prompt yang berbeda. Yang pertama adalah "Huruf mana yang sedang dilingkari?(Which letter is being circled?)", dan yang kedua adalah "Karakter mana yang disorot dengan oval merah?(Which character is being highlighted with a red oval?)". Ini dimaksudkan untuk menilai apakah model dapat mengenali perbedaan halus dalam perumusan kalimat dan mengekstrak makna yang sama. Variasi redaksi pertanyaan berguna untuk menguji kemampuan pemahaman model dari berbagai sudut.

Performa empat model dalam mengenali huruf yang dilingkari adalah sebagai berikut. GPT-4o mencatat rata-rata akurasi 70.18%, Gemini-1.5 Pro 92.81%, Sonnet-3 73.34%, dan Sonnet-3.5 89.22%. Ini menunjukkan bahwa VLM mengalami kesulitan dalam mengenali huruf yang dilingkari.

Dengan kata lain, semua VLM mengalami kesulitan dalam mengidentifikasi karakter secara akurat. Khususnya, banyak kesalahan terjadi ketika lingkaran sedikit menimpa karakter. Ini menunjukkan bahwa VLM belum mampu memproses informasi visual yang rinci secara akurat. Secara khusus, besarnya perbedaan performa antar-model mengindikasikan bahwa kemampuan pemrosesan visual tiap model berbeda-beda.

Task 4. Menghitung bentuk yang saling tumpang tindih ∞

Dalam tugas ini, dilakukan tugas menghitung jumlah lingkaran yang saling bertumpuk seperti pada logo Olimpiade. Untuk itu, dibuat 120 gambar, dan eksperimen dilakukan dengan mencakup lingkaran maupun pentagon. Setiap gambar berisi 5, 6, 7, 8, atau 9 bentuk yang saling bertumpuk, disusun dalam dua baris, dengan ukuran dan warna bentuk yang diatur secara beragam.

Dalam tugas ini, pertanyaan diajukan dengan dua prompt. Yang pertama adalah "Berapa jumlah {bentuk} dalam gambar? Jawab hanya dengan angka.(How many {shapes} are in the image? Answer with only the number in numerical format)", dan yang kedua adalah "Hitung jumlah {bentuk} dalam gambar. Jawab dengan angka di dalam kurung kurawal seperti {3}.(Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)". {bentuk} berarti lingkaran atau pentagon. Ini bertujuan mengevaluasi apakah model dapat mengenali perbedaan halus dalam perumusan dan mengekstrak makna yang sama.

Kinerja empat model dalam menghitung bentuk yang saling tumpang tindih adalah sebagai berikut. GPT-4o menunjukkan akurasi 42.50% untuk lingkaran dan 19.16% untuk pentagon, sedangkan Gemini-1.5 Pro menunjukkan akurasi 20.83% untuk lingkaran dan 9.16% untuk pentagon. Sonnet-3 menunjukkan akurasi 31.66% untuk lingkaran dan 11.66% untuk pentagon, sementara Sonnet-3.5 menunjukkan akurasi 44.16% untuk lingkaran dan 75.83% untuk pentagon.

Sebagian besar model menunjukkan performa rendah pada tugas ini. Khususnya, saat terdapat 5 lingkaran, akurasinya tinggi, tetapi setelah itu performanya turun tajam. Ini menunjukkan bahwa VLM tidak dapat mengenali bentuk yang saling bertumpuk secara akurat.

Task 5. Menghitung persegi bertumpuk 🔳🔲

Dalam tugas ini, gambar dibuat dengan menumpuk beberapa lapisan persegi. Setiap gambar berisi persegi dengan berbagai ukuran, dan ukuran serta posisinya diatur secara acak. Setiap gambar mencakup sejumlah persegi yang saling bertumpuk, dengan jumlah persegi berupa salah satu dari 2, 3, 4, atau 5. Tugas ini bertujuan mengevaluasi apakah VLM dapat menghitung jumlah bentuk yang saling bertumpuk secara akurat.

Dalam tugas ini, pertanyaannya adalah "Hitung jumlah total persegi dalam gambar.(Count the total number of squares in the image)". Ini bertujuan mengevaluasi apakah VLM dapat menghitung jumlah bentuk yang saling bertumpuk secara akurat. Ini juga bertujuan mengevaluasi apakah model dapat mengenali perbedaan halus dalam perumusan dan mengekstrak makna yang sama.

Kinerja empat model dalam menghitung persegi bertumpuk adalah sebagai berikut. GPT-4o mencatat 48.33%, Gemini-1.5 Pro 80.00%, Sonnet-3 55.00%, dan Sonnet-3.5 87.50% akurasi. Ini menunjukkan bahwa VLM mengalami kesulitan dalam menghitung jumlah persegi yang saling bertumpuk.

Seperti terlihat dari hasilnya, semua model juga menunjukkan akurasi yang konsisten rendah pada tugas ini. Khususnya, semakin banyak jumlah perseginya, semakin banyak kesalahan yang terjadi. Ini menunjukkan bahwa VLM kesulitan mengenali bentuk yang saling bertumpuk secara akurat. Selain itu, perbedaan kinerja yang besar antarmodel mengisyaratkan bahwa kemampuan pemrosesan visual tiap model berbeda-beda.

Task 6. Menghitung matriks grid ▦

Dalam tugas ini, dibuat gambar grid dengan berbagai ukuran untuk melakukan tugas menghitung jumlah baris dan kolom. Setiap gambar terdiri atas grid yang mencakup sejumlah baris dan kolom tertentu, dan beberapa gambar berisi teks di tiap sel. Selain itu, ukuran dan bentuk grid diatur secara beragam. Ini bertujuan mengevaluasi apakah VLM dapat menghitung jumlah baris dan kolom pada grid secara akurat.

Setiap pertanyaan terdiri atas dua perumusan yang berbeda. Yang pertama adalah "Hitung jumlah baris dan kolom, lalu jawab dengan angka di dalam kurung kurawal. Contoh: rows={5} columns={6}(Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})", dan yang kedua adalah "Hitung jumlah baris dan kolom pada tabel. Jawab sebagai pasangan angka. Contoh: (5,6)(How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6)))". Ini bertujuan mengevaluasi apakah model dapat mengenali perbedaan halus dalam perumusan dan mengekstrak makna yang sama.

Kinerja empat model dalam menghitung baris dan kolom adalah sebagai berikut. GPT-4o mencatat akurasi rata-rata 39.58%, Gemini-1.5 Pro rata-rata 35.79%, Sonnet-3 rata-rata 36.17%, dan Sonnet-3.5 rata-rata 74.26%.

Hasil eksperimen menunjukkan bahwa performa meningkat pada grid yang berisi teks, tetapi tetap tidak menunjukkan akurasi yang tinggi. Ini menunjukkan bahwa VLM tidak dapat mengenali struktur detail grid secara akurat sehingga kesulitan menghitung jumlah baris dan kolom. Khususnya, perbedaan kinerja yang besar antarmodel mengisyaratkan bahwa kemampuan pemrosesan visual tiap model berbeda-beda.

Task 7. Mengikuti jalur satu warna 🔂

Dalam tugas ini, dilakukan pembacaan peta jalur kereta bawah tanah dengan mengikuti jalur monokrom. Setiap gambar terdiri atas 4 stasiun tetap (A, B, C, D) dan jalur yang menghubungkan di antaranya. Ini bertujuan mengevaluasi apakah VLM dapat mengikuti jalur satu warna.

Setiap pertanyaan disusun dengan dua prompt yang berbeda. Yang pertama adalah "Berapa jumlah jalur satu warna dari A ke C? Jawab dengan angka di dalam kurung kurawal. Contoh: {3}(How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})", dan yang kedua adalah "Hitung jalur satu warna yang menuju dari A ke C. Jawab dengan angka di dalam kurung kurawal. Contoh: {3}(Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)". Ini bertujuan mengevaluasi apakah model dapat mengenali perbedaan halus dalam perumusan dan mengekstrak makna yang sama.

Kinerja empat model dalam pelacakan jalur satu warna adalah sebagai berikut. GPT-4o mencatat akurasi rata-rata 45.89%, Gemini-1.5 Pro rata-rata 40.01%, Sonnet-3 rata-rata 23.78%, dan Sonnet-3.5 rata-rata 50.18%. Artinya, semua model menunjukkan performa rendah pada tugas ini.

Khususnya, semakin banyak jumlah jalurnya, performanya turun tajam. Ini menunjukkan bahwa VLM mengalami kesulitan mengikuti jalur satu warna. Perbedaan kinerja yang besar antarmodel seperti ini mengisyaratkan bahwa kemampuan pemrosesan visual tiap model berbeda-beda.

Hasil eksperimen

Semua VLM menunjukkan akurasi rendah bahkan pada tugas visual yang sederhana. Khususnya, performa yang sangat rendah terlihat pada tugas seperti menghitung titik potong garis, memeriksa status dua lingkaran, dan memeriksa huruf yang dilingkari. Ini mengisyaratkan bahwa VLM tidak dapat mengenali informasi visual yang rinci secara akurat. Selain itu, performa juga secara konsisten rendah pada tugas seperti menghitung bentuk yang saling bertumpuk, menghitung persegi bertumpuk, menghitung matriks grid, dan mengikuti jalur satu warna.

Secara keseluruhan, eksperimen ini mengonfirmasi bahwa kemampuan pengenalan visual VLM masih terbatas. Hasil ini berarti VLM masih memerlukan banyak perbaikan agar dapat memiliki kemampuan pengenalan visual setingkat manusia.

Riset terkait dan kesimpulan

Benchmark VLM yang ada selama ini terutama berfokus pada evaluasi kemampuan pemahaman visual tingkat tinggi. Namun, BlindTest adalah benchmark pertama yang mengevaluasi kemampuan pengenalan visual dasar, dan secara jelas menunjukkan keterbatasan apa yang dimiliki VLM dalam tugas visual sederhana.

Sebagai contoh, benchmark seperti MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA, dan EgoSchema hanya mengukur performa keseluruhan VLM, tetapi tidak mampu mengungkap keterbatasan spesifiknya secara jelas. Karena itu, BlindTest merupakan alat penting untuk mengevaluasi kemampuan pengenalan visual VLM secara lebih akurat. Selain itu, BlindTest akan menjadi tolok ukur penting untuk menilai apakah VLM belum dapat mengenali gambar seperti manusia.

Performa buruk pada tugas-tugas BlindTest menunjukkan bahwa VLM saat ini masih belum mahir dalam tugas pengenalan visual dasar yang membutuhkan pemahaman spasial yang akurat. Keterbatasan ini menunjukkan bahwa model cenderung bergantung pada kemampuan pemrosesan bahasa, sehingga mungkin tidak cocok untuk pengenalan visual. Hasil-hasil ini menekankan perlunya riset dan pengembangan lebih lanjut untuk meningkatkan kemampuan visual VLM.

Dalam penelitian selanjutnya, diperlukan pendekatan baru untuk meningkatkan kemampuan persepsi visual VLM. Sebagai contoh, modul vision dapat ditingkatkan dengan menggunakan pendekatan early fusion. Selain itu, data pelatihan juga perlu didiversifikasi agar VLM dapat menunjukkan performa yang lebih baik pada tugas-tugas visual sederhana. Melalui upaya-upaya ini, kemampuan persepsi visual VLM diharapkan dapat ditingkatkan.

Baca lebih lanjut

Tulisan ini disusun berdasarkan ringkasan yang dibuat dengan model GPT, sehingga mungkin ada bagian yang dirangkum berbeda dari isi atau maksud naskah aslinya. Jika Anda tertarik pada topik ini, silakan rujuk juga ke naskah aslinya! Jika saat membaca Anda menemukan bagian yang terasa janggal atau keliru, mohon beri tahu kami melalui komentar. 🤗

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch Korea🇰🇷 ini bermanfaat bagi Anda? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan artikel-artikel utama melalui email💌! (Default-nya Weekly, tetapi bisa diubah ke Daily.)