Batas visual model bahasa-vision

(vlmsareblind.github.io)

2 poin oleh GN⁺ 2024-07-11 | 1 komentar | Bagikan ke WhatsApp

Vision-language model (VLM) seperti GPT-4o, Gemini-1.5 Pro, Sonnet-3, dan Sonnet-3.5 meraih skor tinggi pada benchmark pemahaman visual, tetapi pada tugas visual tingkat rendah yang mudah bagi manusia, rata-rata hanya mencapai akurasi 58,57%
BlindTest memeriksa pengenalan spasial presisi lewat 7 tugas sederhana seperti menghitung jumlah perpotongan garis, kontak atau tumpang tindih dua lingkaran, menemukan huruf yang ditandai, menghitung bentuk yang saling bertumpuk, persegi panjang bertingkat, baris dan kolom tabel, serta rute kereta bawah tanah
Rata-rata keseluruhan lebih tinggi daripada baseline acak 24%, tetapi bahkan model terbaik, Sonnet-3.5, hanya mencapai 74,94%, masih jauh dari ekspektasi manusia sebesar 100%
Meski resolusi dan ketebalan garis diubah, model masih belum mampu menangani secara stabil elemen dasar geometri yang saling berdekatan atau bertumpang tindih serta hubungan posisi yang presisi
Saat tabel berisi teks, performa menghitung baris dan kolom membaik, tetapi pada input yang memerlukan pelacakan spasial seperti peta kereta bawah tanah dengan jumlah rute yang meningkat, performanya turun tajam

Pengaturan masalah BlindTest dan hasil keseluruhan

Paper (ArXiv), Code, dan Dataset telah dipublikasikan
Objek evaluasi adalah empat VLM: GPT-4o, Gemini-1.5 Pro, Sonnet-3, dan Sonnet-3.5
BlindTest menilai pengenalan spasial presisi VLM melalui tugas visual tingkat rendah yang mudah diselesaikan manusia
Rata-rata akurasi keseluruhan adalah 58,57%, lebih tinggi daripada baseline acak 24%, tetapi masih belum mencapai akurasi yang diharapkan, yaitu 100%
Dalam rata-rata keseluruhan per model, Sonnet-3.5 mencatat hasil tertinggi dengan 74,94%
Kegagalan utama berulang pada hubungan posisi yang presisi, jarak yang rapat, tumpang tindih, pelacakan rute, dan pengenalan elemen dasar geometri

Menghitung jumlah perpotongan garis

Ini adalah tugas untuk menghitung apakah garis patah biru dan merah yang masing-masing terdiri dari 2 segmen berpotongan sebanyak 0, 1, atau 2 kali
Gambar dibuat sebanyak 1.800 lembar berupa grafik garis 2D di atas kanvas putih
- Setiap garis didefinisikan oleh tiga titik dengan koordinat x tetap dan berjarak sama
- Koordinat y diambil secara acak agar terbentuk tepat 0, 1, atau 2 perpotongan
Pilihan jawaban adalah {0, 1, 2} dengan baseline acak 33%
Rata-rata akurasi adalah GPT-4o 41,61%, Gemini-1.5 Pro 66,94%, Sonnet-3 43,41%, dan Sonnet-3.5 75,36%
Pada hasil contoh, VLM tidak mampu menghitung titik potong secara konsisten

Membedakan kontak dan tumpang tindih dua lingkaran

Ini adalah tugas Yes/No yang menanyakan apakah dua lingkaran berisi penuh dengan ukuran sama saling bersentuhan atau saling bertumpang tindih
Gambar berjumlah 672 dan dibuat dengan memvariasikan ukuran lingkaran, jarak, arah, dan ukuran kanvas
- Diameter lingkaran adalah 1/4, 1/5, 1/6, atau 1/7 dari ukuran kanvas
- Jarak antar keliling lingkaran adalah dari -0,15 kali diameter hingga 0,5 kali diameter
- Arah adalah 90°, 0°, -45°, 45°
- Ukuran kanvas adalah 384, 769, dan 1155 piksel
Jawaban benar ditentukan oleh jarak d antar keliling lingkaran
- d < 0: bertumpang tindih dan bersentuhan
- d = 0: tidak bertumpang tindih tetapi bersentuhan
- d > 0: tidak bertumpang tindih dan tidak bersentuhan
Rata-rata akurasi adalah GPT-4o 72,69%, Gemini-1.5 Pro 92,78%, Sonnet-3 84,52%, dan Sonnet-3.5 91,66%
Pada jarak kecil, VLM terus gagal, dan bahkan pada jarak besar ada kasus GPT-4o yang tidak stabil

Menemukan huruf yang ditandai dengan elips merah

Secara terpisah, VLM dapat mengenali bentuk dasar seperti lingkaran merah dan juga dapat membaca kata bahasa Inggris, tetapi ketika sebuah elips merah ditumpangkan pada huruf tertentu dalam kata, model kesulitan menentukan huruf yang tepat
String yang digunakan adalah Acknowledgement, Subdermatoglyphic, dan tHyUiKaRbNqWeOpXcZvM
- Ketiga string memiliki variasi lebar dan tinggi huruf
- Keempat model dapat membaca seluruh huruf saat hanya string itu sendiri yang diberikan sebagai gambar
- String acak disertakan untuk mengukur pengaruh familiaritas kata terhadap akurasi
Untuk setiap kombinasi string dan huruf yang ditandai, dibuat gambar 512×512 dengan kombinasi 3 ketebalan garis elips merah, 2 ukuran font, dan 4 posisi dalam kanvas
- Acknowledgement: 360 gambar
- Subdermatoglyphic: 408 gambar
- tHyUiKaRbNqWeOpXcZvM: 480 gambar
Rata-rata akurasi adalah GPT-4o 70,18%, Gemini-1.5 Pro 92,81%, Sonnet-3 73,34%, dan Sonnet-3.5 89,22%
Saat salah, model cenderung memprediksi huruf yang bersebelahan dengan huruf yang ditandai

Menghitung bentuk yang bertumpang tindih dan persegi panjang bertingkat

Tugas menghitung lingkaran atau segilima yang saling bertumpang tindih seperti logo Olimpiade digunakan untuk memeriksa apakah VLM yang dapat menghitung lingkaran terpisah juga mengalami kesulitan pada bentuk yang saling bertumpang tindih
Tugas bentuk bertumpang tindih menata 5 hingga 9 bentuk berukuran sama dalam dua baris pada kanvas 384, 769, dan 1155 piksel
- Diameter lingkaran adalah C/5 atau C/10
- Panjang sisi segilima adalah C/5 atau C/10
- Total 120 gambar dihasilkan
- Jawaban benar adalah {5, 6, 7, 8, 9} dengan baseline acak 20%
Akurasi lingkaran bertumpang tindih adalah GPT-4o 42,50%, Gemini-1.5 Pro 20,83%, Sonnet-3 31,66%, dan Sonnet-3.5 44,16%
Akurasi segilima bertumpang tindih adalah GPT-4o 19,16%, Gemini-1.5 Pro 9,16%, Sonnet-3 11,66%, dan Sonnet-3.5 75,83%
Tugas persegi panjang bertingkat meminta model menghitung 2 hingga 5 persegi panjang yang ditempatkan di dalam persegi panjang terluar tanpa saling bersentuhan
- Total 120 gambar dihasilkan
- Akurasinya adalah GPT-4o 55,83%, Gemini-1.5 Pro 87,08%, Sonnet-3 65,00%, dan Sonnet-3.5 92,08%
- Pada contoh, hanya Sonnet-3.5 yang berhasil menghitung persegi panjang pada banyak gambar

Menghitung baris dan kolom tabel serta melacak rute kereta bawah tanah

Tugas menghitung baris dan kolom tabel memeriksa apakah VLM benar-benar dapat menghitung struktur grid sederhana, bahkan dalam kondisi di mana model tampak berkinerja tinggi pada input yang mengandung tabel
Grid berbentuk N×N, N×N', atau N'×N, dengan N berada pada rentang 3 hingga 9 dan N' = N+1
- Ukuran kanvas adalah 500, 1250, dan 2000 piksel
- Ketebalan garis ada 2 jenis
- Mencakup grid kosong dan grid dengan kata acak di setiap sel, total 444 gambar
Jawaban dianggap benar hanya jika baris dan kolom keduanya tepat, dan rata-rata akurasinya adalah GPT-4o 39,58%, Gemini-1.5 Pro 39,39%, Sonnet-3 36,17%, dan Sonnet-3.5 74,26%
- Rata-rata grid kosong adalah 34,37%
- Rata-rata grid dengan teks adalah 60,33%
- Saat teks dimasukkan ke dalam sel, performa semua VLM meningkat, terutama pada Sonnet-3.5
Tugas peta kereta bawah tanah meminta model menghitung jumlah rute satu warna yang menghubungkan dua stasiun tertentu di antara empat stasiun A, B, C, dan D
- Menggunakan kanvas 512 atau 1024 piksel
- Rute dibuat dengan depth-first search pada grid tak terlihat berukuran 18×18
- Setiap stasiun memiliki tepat N∈{1, 2, 3} rute keluar
- Total 180 peta dihasilkan
Rata-rata akurasi rute kereta bawah tanah adalah GPT-4o 47,89%, Gemini-1.5 Pro 41,60%, Sonnet-3 23,24%, dan Sonnet-3.5 55,53%
- Saat tiap stasiun memiliki 1 rute, rata-ratanya 59,16%
- Saat memiliki 2 rute, rata-ratanya 40,69%
- Saat memiliki 3 rute, rata-ratanya 26,35%
Ada kecenderungan performa VLM makin memburuk ketika jumlah rute keluar dari stasiun meningkat

1 komentar

GN⁺ 2024-07-11

Pendapat di Hacker News

Menarik, tetapi kesimpulannya tampak cukup melenceng. Menulis di abstrak bahwa “penglihatan mereka paling banter mirip rabun jauh yang melihat detail secara kabur” terasa berlebihan, dan saya juga ragu apakah hipotesis itu benar-benar diuji dengan semestinya.
Kalau saya bisa membagikan contoh GPT-4v di pekerjaan yang berhasil melakukan tugas visual yang sangat rinci dan cukup sulit, itu bisa membantah kesimpulan ini. Secara pribadi saya lebih menghargai makalah ini https://arxiv.org/abs/2404.04125, yang berargumen bahwa model AI generatif besar cukup baik jika diasumsikan mereka sudah melihat sangat banyak data jenis tersebut selama pelatihan. Jika sengaja membuat tugas yang aneh, model memang bisa sangat buruk dan kesan awal sebagai AGI menjadi melemah, tetapi dalam praktiknya kita tidak hanya memakai tugas yang dirancang untuk menjatuhkan model. Pada tugas tertentu, performanya bisa bagus, dan makalah ini tidak cukup memberikan dasar substantif untuk dua sisi tersebut.
- Di komentar terlihat cukup banyak “pembela AI”, tetapi dalam situasi ketika model seperti ini dipasarkan seolah-olah dapat menggantikan penglihatan manusia untuk penggunaan seperti Be My Eyes bagi penyandang gangguan penglihatan, menurut saya judulnya adil: https://www.youtube.com/watch?v=Zq710AKC1gg
  Model-model ini sebenarnya belum setara manusia, tetapi tersirat seolah-olah mendekati level manusia. Makalah ini menunjukkan bahwa bahkan pada masalah sederhana pun masih ada kesenjangan besar di mana model menjadi bingung dengan cara yang tak terduga. Tugas-tugas seperti ini perlu lebih ditonjolkan agar orang memahami perlunya pengaman dan peringatan yang memadai sebelum mempercayainya cocok untuk penggunaan umum.
- “Menarik” adalah ungkapan yang tepat. Mereka berhasil menemukan kasus tepi dalam pemrosesan visual model, dan menariknya, secara konseptual juga tidak terlalu jauh dari beberapa ilusi optik yang sering mengecoh manusia.
  Namun menyebut model itu “buta” atau mengisyaratkan bahwa performanya secara umum rendah mudah dibantah hanya dengan mengeluarkan ponsel dan memasukkan satu foto ke aplikasi ChatGPT. Ada juga reaksi yang menyinggung BeMyEyes sambil mengecam “pembela AI”, tetapi dengan langganan 20 dolar per bulan dan sebuah ponsel saja, ini bisa langsung dicoba. Untuk tugas dunia nyata, model bekerja secara mengejutkan baik; meski tidak sempurna, secara praktis sudah cukup berguna, dan dalam banyak kasus lebih baik daripada alternatifnya atau tidak ada alternatif sama sekali.
- Ungkapan “rabun jauh yang melihat detail secara kabur” tidak terlalu jauh dari kenyataan. Sebagian besar model melihat gambar dalam resolusi rendah dan warna terbatas, jadi deskripsi itu cukup mendekati.
- Apakah “model AI generatif besar cukup baik” benar-benar slogan jualannya? Bahkan 15 tahun lalu pun sudah ada pemindai di Windows yang disertai aplikasi untuk memindai dokumen lalu mengekstrak teks, dan RAM mesin itu kira-kira 256MB.
  Teknologi bisa sangat unggul dalam tugas ceruk yang terisolasi. Sistem OCR 10 tahun lalu pun sangat dapat diandalkan pada satu tugas yang sudah ditetapkan. Yang dijanjikan AI adalah paradigma baru yang tidak terkurung dalam ceruk tertentu yang sudah ditentukan pengembang, tetapi jika ia secara andal melewatkan hal sederhana yang tidak akan salah bagi orang biasa, seluruh proposisi nilainya runtuh.
- Premis “tidak bisa saya bagikan, tetapi” itu menarik. Kedengarannya seperti model sangat hebat dalam pemrosesan visual tertentu yang rahasia, sehingga evaluasi seperti menghitung bentuk atau akurasi yang lebih baik daripada lempar koin tidak perlu dipertimbangkan.
Kemarin saya punya pengalaman yang cukup mencengangkan dengan GPT-4o. Pintu garasi saya belakangan mulai turun, jadi saya periksa, dan ternyata pemilik rumah memasang wire rope clip dengan salah sehingga tegangan kabel torsi terlepas.
Saya tidak tahu nama komponen itu, jadi saya bertanya ke ChatGPT, dan seperti dugaan, ia mengidentifikasi komponennya. Sebagai uji coba, saya bertanya apakah ada hal yang mencolok pada foto, dan ia dengan benar mengenali bahwa kabel dipasang terbalik: sisi yang semestinya menahan tegangan berada di atas ujung longgar, bukan menjepitnya kuat-kuat. Untuk mendiagnosis ini, perlu menelusuri kabel di ruang 3D dan menyimpulkan dari geometri sisi mana yang mendapat tegangan, walau tentu tidak bisa dikesampingkan kemungkinan itu hanya tebakan beruntung. Yang benar-benar mengejutkan adalah salah satu dari dua mur jelas-jelas hilang, tetapi bahkan setelah ia memberi tahu ada masalah pemasangan kedua, ia tetap tidak menyadarinya. Tangkapan layar: https://imgur.com/a/QqCNzOM
- Manusia harus menelusuri kabelnya. Namun LLM mungkin menjawab berdasarkan fakta bahwa orang biasanya bertanya tentang klip seperti itu ketika ada sesuatu yang salah, dan bahwa ini adalah jenis kerusakan yang sangat umum.
  Ia juga mengeluarkan mnemonik “never saddle a dead horse”, yang menjadi bukti bahwa masalah ini umum. Akan bagus kalau menanyakan hal yang sama lagi setelah diperbaiki.
- Dengan mata saya sebagai manusia, foto itu tidak terlihat cukup jelas untuk menyimpulkan sisi mana yang seharusnya mendapat tegangan. Saya memang bukan orang terlatih, tetapi setelah membaca penjelasannya saya tahu seperti apa yang diharapkan.
  Seperti balasan lain, saya skeptis bahwa LLM hanya kebetulan menebak dengan benar.
- Untuk menelusurinya di ruang 3D diperlukan memori jangka pendek dan kemampuan berpikir. Model tidak punya itu, jadi pada akhirnya kemungkinan besar ia hanya menebak.
Hingga kini, VLM belum terlalu baik dalam tugas seperti menghitung objek atau memahami relasi spasial, misalnya apakah kopi berada di sebelah kanan microwave
Ada cara untuk membantu VLM, dengan contoh utama Set of Marks dari Microsoft https://github.com/microsoft/SoM. Caranya adalah memberi kontur dan label pada area melalui segmentasi sebelum mengirim gambar ke VLM. Memberi label yang “bisa diungkapkan dengan kata-kata” pada area membantu membumikan kemampuan visual VLM, dan ini juga menjadi alasan mengapa dalam makalah ini performanya jauh lebih baik pada “Task 6: Counting the rows and columns of a grid” ketika ada kata di dalam kisi
- Saya tidak tahu bahwa menghitung objek adalah masalah. Ironisnya, setahu saya implementasi jaringan saraf paling awal adalah retina buatan numa-rete yang dibuat sekitar tahun 1960 di Biological Computer Lab
  Itu adalah komputer analog paralel dengan “neuron” berfotolistrik yang disusun dalam kisi, dan konon dapat menghitung “jumlah objek terlepas dari ukuran, posisi, bentuk, dan intensitas pencahayaan”. Bagi orang di bidang ini, makalah Heinz Von Foerster tahun 1962 “Perception of Form in Biological and Man Made Systems” mungkin menarik: https://distributedmuseum.illinois.edu/exhibit/biological_computer_laboratory/, https://sites.evergreen.edu/arunchandra/wp-content/uploads/sites/395/2018/05/bcl082.pdf
- Model visual memakai CLIP atau yang sejenis, tetapi tidak punya konsep untuk memahami objek konkret di dalam gambar. Mereka hanya melihat embedding yang berkorelasi, mirip dengan embedding teks
  Caranya seperti mendeskripsikan sebuah gambar sebagai “burung-burung sedang bertengger di kabel listrik di depan langit biru dan awan”, lalu mencocokkan embedding deskripsi itu dengan embedding foto. Jika ditanya apakah ada burung, ia bisa tahu, tetapi tidak tahu ada berapa. Maksudnya, kecuali dalam data pelatihan cukup sering ada deskripsi jumlah burung yang bertengger di atas suatu objek, dan angka itu cukup sering cocok dengan jumlah sebenarnya dalam deskripsi gambar. Jika ingin menghitung objek, diperlukan sesuatu seperti YOLO
Vision Transformer melakukan kompresi yang luar biasa besar di tokenizer. Dalam makalah Chameleon, disebutkan bahwa tokenizer “mengodekan gambar 512 × 512 menjadi 1024 token diskret dari codebook berukuran 8192”
Itu berarti 256 piksel per token, dan jika piksel dianggap 24 bit, maka 256 * 24 = 6144 bit dikompresi menjadi 13 bit, yaitu log2(8192). An Image is Worth 32 Tokens for Reconstruction and Generation mendorong ini lebih jauh lagi. Jika model-model ini bekerja dengan cara serupa, tidak aneh bila mereka kesulitan pada sebagian tugas visual
- Tidak sesederhana itu. Jika meminta GPT-4o membuat salinan gambar seperti ini, biasanya hasilnya cukup setia. Misalnya, ia juga bisa membuat gambar dengan 5 persegi
  Jadi sampai batas tertentu ia memang “melihat”. Namun, tampaknya ia kurang memiliki logika untuk menjawab pertanyaan semacam ini. Seluruh dataset bisa diuji langsung di sini: https://huggingface.co/datasets/XAI/vlmsareblind/viewer/default/train
- GPT-4o sangat unggul dalam beberapa tugas visual seperti OCR. Jadi kebutaan selektif ini, seperti yang disebutkan, mungkin merupakan hasil dari seluruh kapasitas yang diarahkan untuk mengurangi loss pada beberapa tugas sempit yang paling banyak memiliki data pelatihan
  Ini mungkin lebih merupakan masalah kapasitas daripada kegagalan struktural dalam generalisasi, dan ada kemungkinan akan teratasi secara alami jika skalanya diperbesar lagi
- Saat mencoba memikirkan contoh serupa dari modalitas indra manusia selain penglihatan, saya terpikir situasi ketika harus menjelaskan rasa buah kepada orang yang belum pernah mencicipinya
Jika model-model terbaik saat ini seperti GPT-4o, Gemini-1.5 Pro, Sonnet-3, dan Sonnet-3.5 berada pada level ini, performanya cukup memalukan karena buruk. Model-model ini diiklankan dan dijual sebagai mampu melakukan pemahaman gambar, seperti memandu tunanetra atau mengajari anak geometri
Tugas-tugas yang gagal mereka selesaikan sangat sederhana bagi manusia, sampai terasa absurd. Misalnya menghitung berapa kali dua garis berpotongan, mendeteksi apakah dua lingkaran saling tumpang tindih, memilih huruf yang dilingkari dalam sebuah kata, atau menghitung jumlah lingkaran pada gambar yang mirip logo Olimpiade. Tulisan ini seharusnya berada di bagian paling atas halaman pertama
- Saya tidak mengerti mengapa ini bahkan sedikit saja “memalukan”. Model-model ini bukan otak manusia, dan orang-orang yang menyamakannya dengan otak manusia justru merupakan kegagalan yang lebih memalukan daripada modelnya
  Sama sekali tidak mengejutkan bahwa model gagal menangani banyak kasus yang “jelas bagi manusia”. Machine learning sejak awal memang punya sifat seperti ini, dan ini adalah kesalahan klasik yang dilakukan orang saat berurusan dengan sistem semacam ini. Manusia cenderung berasumsi bahwa jika sebuah model machine learning memiliki akurasi lebih tinggi daripada manusia pada tugas X, maka model itu juga memiliki kemampuan tersebut pada semua tugas lain. Jika orang yang sangat berbakat mungkin juga unggul dalam tugas lain, hal itu tidak berlaku pada model machine learning. Sebaliknya, keliru juga jika menganggap bahwa karena model buruk pada tugas Y, maka kemampuannya pada tugas X hanyalah ilusi dan tidak dapat dipercaya
- Reaksi seperti ini terbaca seperti, “Betapa memalukannya anjing saya yang bisa bicara selalu salah mengerjakan soal kalkulus!”
  Apakah treadmill ekspektasi benar-benar sudah melaju secepat itu, sampai performa di bawah manusia pada kategori masalah apa pun kini dianggap memalukan?
Temuannya sendiri menarik, tetapi judul “Vision language models are blind” terasa berlebihan dan menyesatkan hasilnya. Memang benar bahwa cara VLM mendeteksi dan memproses input gambar sangat berbeda dari manusia, dan pada resolusi rendah gambar dipecah menjadi blok lalu dipetakan ke token diskret
Pemetaan ini cukup lossy, sehingga model memang tidak bisa mengakses detail yang halus. Dalam arti itu, hasilnya sepenuhnya masuk akal dan tidak mengejutkan, tetapi istilah “buta” membawa implikasi yang kuat dan riset ini tidak mendukungnya. Lihat saja contoh pertama, empat grafik garis 2D: ketika Sonnet 3.5 ditanya 5 kali, 2 kali jawabannya cukup bagus. Ia salah karena mengatakan titik potong pada grafik ketiga ada 1 padahal sebenarnya 2, tetapi secara keseluruhan cukup baik, dan pada 3 kali lainnya ia juga menjawab grafik ketiga memiliki 1 titik potong
Dari sudut pandang orang yang hanya tahu secara dangkal bagaimana VLM bekerja, di sini rasanya orang-orang yang membicarakan embodiment mungkin ada benarnya. Manusia bisa menyempurnakan pengenalan gambar secara berulang sambil memusatkan perhatian pada area yang diminati, sedangkan VLM harus memproses seluruh gambar dengan tingkat fidelity yang sama
Saya penasaran apakah ada cara untuk menirunya. Misalnya, awalnya token visual dibuat dengan fidelity rendah, lalu VLM bisa mengeluarkan token untuk “memfokuskan” area tertentu pada gambar dengan resolusi lebih tinggi. Namun saya tidak begitu yakin apakah model dapat dilatih secara efisien dengan data “interaktif” semacam itu
- Bukankah ini justru mekanisme attention? Itu sebabnya Transformer dipakai untuk tugas semacam ini, sepertinya
  Tidak harus resolusi yang lebih tinggi, tetapi memfokuskan area tertentu lewat konektivitas saraf yang lebih kuat
- Manusia sebenarnya lahir dengan penglihatan buram karena mata butuh waktu untuk berkembang, jadi pembelajaran manusia dimulai dari gambar beresolusi rendah. Ada juga teori bahwa ini bukan keterbatasan, melainkan bisa menjadi keuntungan dalam perkembangan sistem pemrosesan visual
  Orang-orang di negara miskin yang kataraknya baru diangkat agak belakangan seharusnya, dari sisi perangkat keras saat itu, memiliki penglihatan sempurna, tetapi tampaknya tetap memiliki defisit seumur hidup. Seberapa besar pengaruh pembelajaran awal beresolusi rendah pada manusia belum sepenuhnya diketahui, dan ini mungkin lebih terkait dengan neurobiologi manusia yang spesifik ketimbang kebenaran umum tentang sistem koneksionis. Meski begitu, menarik untuk memikirkan bahwa sebagian hasil pada jaringan saraf buatan bisa sangat bergantung pada paradigma pelatihan, dan tidak semua kekurangan dapat diatasi hanya dengan pembaruan struktur inti
- Untuk meniru pemrosesan perhatian manusia, data pelacakan tatapan dalam jumlah besar yang dipasangkan dengan apa yang sedang dilihat mungkin menjadi titik perbaikan yang relatif mudah dikumpulkan
- Model-model ini sudah belajar cara memfokuskan bagian tertentu dari gambar. Sejak awal, tujuan eksplisit Transformer memang itu
- Kemampuan manusia untuk “menyempurnakan” persepsi secara berulang tidak ada kaitannya dengan kognisi berwujud
Ironis bahwa model gagal pada tes sederhana yang rasanya bahkan anak-anak bisa selesaikan. Namun ketika saya meminta Gemini membaca kartu pos tulisan tangan kursif Rusia yang penuh noise visual, ia bisa membaca teksnya dan bahkan menerjemahkannya ke bahasa Inggris
Saya bahkan tidak perlu memberi tahu bahwa teks itu berbahasa Rusia. Di satu sisi, hal-hal yang bisa dilakukan LLM sungguh luar biasa sampai sulit dipercaya, tetapi di sisi lain model-model ini sering tersandung parah pada masalah yang tampak sederhana seperti ini. Pada mobil otonom, kita juga melihat pola serupa: kecelakaan terjadi dalam situasi yang hampir semua pengemudi manusia bisa hindari dengan mudah
- Bagi anak-anak, itu sederhana. Karena penglihatan berevolusi untuk mengenali pola seperti ini, sebab penting bagi kelangsungan hidup kita. Membaca bahasa Rusia tidak demikian
  Dari sudut pandang algoritme, tugas visual seperti ini sebenarnya cukup sulit diprogram secara eksplisit
Saya pernah beberapa kali mengajar geometri komputasional, dan menghitung perpotongan N ruas garis secara efisien tidak sesederhana yang awalnya dipikirkan. Di suatu tempat tetap dibutuhkan komputasi untuk mengenalinya, dan karena LLM tidak dilatih khusus untuk tugas ini, tidak mengherankan jika ia kesulitan
Secara umum, geometri dasar tampaknya merupakan area yang belum banyak dieksplorasi dari sudut pandang pembelajaran
- Menentukan apakah ada anjing dalam foto atau memahami sentimen paragraf juga tidak sederhana. Kompleksitas itu sendiri tampaknya bukan poin utamanya
  Sepertinya ada perbedaan antara jenis penalaran yang dipelajari model-model ini dan jenis penalaran yang dibutuhkan untuk penalaran matematis yang spesifik
- Manusia juga tidak punya kemampuan “menghitung titik potong”. Kecuali sebagian yang dipelajari dengan susah payah lewat aljabar, kita punya mekanisme “melihat dan menghitung”
  Kita tidak menerima garis-garis di ruang bidang secara visual lalu menghitung di mana mereka berpotongan. Kita tahu seperti apa titik potong itu, melihat satu, menaikkan hitungan, lalu mencari yang berikutnya. Jika jumlahnya kurang dari sekitar 5, kita memprosesnya sekaligus; jika lebih banyak, kita benar-benar menghitungnya, kadang dalam kelompok kecil, kadang satu per satu
Semua model, terutama Claude 3.5 Sonnet, tampaknya jauh lebih baik daripada acak, jadi jelas bukan buta. Satu-satunya tugas di mana Claude Sonnet 3.5 tidak lebih baik daripada acak adalah masalah yang mengharuskan mengikuti beberapa jalur, yaitu ketika jawaban dari A ke C adalah 3, dan itu pun butuh beberapa detik bagi saya untuk menyelesaikannya
Rasanya judul makalahnya sudah ditentukan lebih dulu, lalu Claude 3.5 Sonnet yang baru dievaluasi dengan gambar abstrak. Kalimat “penglihatan mereka paling banter mirip rabun jauh dengan detail yang buram” juga tidak masuk akal. Gambar ini mengevaluasi kemampuan abstraksi model, bukan ketajaman penglihatannya
- Kalau begitu, secara hukum sebut saja tunanetra

Batas visual model bahasa-vision

Pengaturan masalah BlindTest dan hasil keseluruhan

Menghitung jumlah perpotongan garis

Membedakan kontak dan tumpang tindih dua lingkaran

Menemukan huruf yang ditandai dengan elips merah

Menghitung bentuk yang bertumpang tindih dan persegi panjang bertingkat

Menghitung baris dan kolom tabel serta melacak rute kereta bawah tanah

Bacaan terkait

1 komentar

Pendapat di Hacker News