Kesan pertama GPT-4V(ision)

(blog.roboflow.com)

1 poin oleh GN⁺ 2023-09-29 | 1 komentar | Bagikan ke WhatsApp

GPT-4 with Vision dari OpenAI adalah model multimodal yang menerima gambar dan teks sebagai input lalu menjawab dalam bahasa alami, dan akses API-nya dibuka pada 6 November 2023
Dalam evaluasi, model ini kuat pada visual question answering (VQA) dan OCR gambar dokumen, tetapi pada OCR lapangan seperti nomor seri ban dengan sudut dan kontras buruk, kesalahan mulai terlihat
Untuk gambar soal matematika, model ini dapat memberikan penyelesaian trigonometri beserta jawaban akhirnya, tetapi karena ada kemungkinan simbol matematika terlewat, verifikasi terpisah tetap diperlukan untuk tulisan tangan atau rumus yang kompleks
Pada tugas mengembalikan posisi objek sebagai koordinat, bounding box yang dihasilkan tidak sesuai dengan posisi sebenarnya sehingga sulit menggantikan model deteksi objek khusus
Ada keterbatasan pada tugas yang menuntut pembacaan struktur grid seperti CAPTCHA, teka-teki silang, dan Sudoku, serta pada permintaan identifikasi orang, sehingga diperlukan pengujian per kasus sebelum dipakai sebagai lapisan penalaran dalam pipeline pemahaman gambar

Karakter dan pendekatan GPT-4V

GPT-4 with Vision juga disebut GPT-4V atau GPT-4V(ision), dan merupakan model multimodal yang dikembangkan oleh OpenAI
Pengguna dapat mengunggah gambar lalu mengajukan pertanyaan tentang gambar tersebut, dan tugas ini termasuk visual question answering (VQA)
Model ini termasuk dalam kategori large multimodal model (LMM) yang memproses berbagai bentuk input seperti teks dan gambar
Model lain dalam kategori yang sama mencakup CogVLM, IDEFICS, LLaVA, Kosmos-2
Model open source dapat dideploy secara offline maupun on-device, sedangkan GPT-4V diakses melalui hosted API
GPT-4V dapat digunakan di aplikasi OpenAI ChatGPT iOS, antarmuka web, dan API
- Penggunaan alat web memerlukan langganan GPT-4
- Penggunaan API memerlukan hak akses pengembang
- Identifier API-nya adalah gpt-4-vision-preview

Enam tugas evaluasi

Evaluasi menggunakan enam jenis tugas untuk melihat cakupan kemampuan GPT-4V
- Visual question answering (VQA)
- Optical character recognition (OCR)
- OCR matematika
- Deteksi objek
- Membaca CAPTCHA
- Teka-teki silang dan Sudoku

Hasil visual question answering

Pada gambar meme computer vision, model menjelaskan mengapa gambar itu lucu dengan memanfaatkan berbagai elemen dan hubungan di dalam gambar
- Model juga membaca teks di dalam gambar dan menggunakannya dalam jawaban
- Namun label ayam goreng dibaca salah menjadi “NVIDIA BURGER”, bukan “GPU”
Pada foto koin 1 sen Amerika Serikat, model berhasil mengidentifikasi asal dan nominalnya
Saat ditanya “How much money do I have?” pada gambar berisi beberapa koin, model dapat mengidentifikasi jumlah koin tetapi tidak langsung memahami jenis mata uangnya
- Pada pertanyaan lanjutan, model berhasil mengidentifikasi jenis mata uang tersebut
Pada foto adegan film Pulp Fiction, ketika ditanya “Is it a good movie?”, model memberikan penjelasan film dan jawaban atas pertanyaan meskipun nama film tidak diberikan dalam teks
- Untuk pertanyaan lanjutan tentang skor IMDB, model menjawab skor per Januari 2022
- Seperti model GPT lain dari OpenAI, ini menunjukkan bahwa pengetahuannya tidak mencakup periode setelah waktu tertentu
Ketika ditanya “Where is this?” pada foto San Francisco, model mengidentifikasi lokasinya sebagai San Francisco dan menyebut Transamerica Pyramid dalam gambar sebagai landmark utama kota
Pada foto peace lily, ketika ditanya nama tanaman dan cara merawatnya, model mengidentifikasi tanaman tersebut sebagai peace lily lalu memberi saran perawatan
- Jawaban bahasa alami bisa diperoleh tanpa proses dua tahap yang memisahkan identifikasi tanaman dengan model klasifikasi lalu menanyakan perawatan ke GPT-4

OCR dan OCR matematika

Evaluasi OCR umum dilakukan pada teks yang tertulis di ban dan gambar paragraf dari dokumen digital
Pada gambar ban, model gagal mengidentifikasi nomor seri secara akurat
- Beberapa angka benar, tetapi hasilnya mengandung banyak kesalahan
- Ini menunjukkan keterbatasan pada OCR di lingkungan nyata dengan kontras rendah atau sudut miring
Pada gambar dokumen yang berisi teks halaman web, model berhasil membaca teks dalam gambar
- Model menunjukkan hasil yang berguna untuk tugas ekstraksi teks dari dokumen
Pada uji OCR matematika, gambar soal matematika dari tangkapan layar dokumen dimasukkan lalu diminta “Solve it.”
- Model mengidentifikasi bahwa soal tersebut dapat diselesaikan dengan trigonometri
- Model memilih fungsi yang akan digunakan dan memberikan penyelesaian langkah demi langkah
- Model juga memberikan jawaban akhirnya
System card GPT-4V dari OpenAI mencantumkan bahwa model dapat melewatkan simbol matematika sebagai salah satu keterbatasannya
- Pada pengujian dengan rumus tulisan tangan di atas kertas atau bentuk persamaan lain, kelemahan kemampuan menjawab soal matematika bisa muncul

Keterbatasan deteksi objek dan pemahaman spasial

Deteksi objek adalah tugas dasar dalam bidang computer vision, dan evaluasi ini memeriksa kemampuan mengidentifikasi posisi beberapa objek dalam gambar
Pada gambar berisi anjing, ketika diminta mendeteksi anjing dan mengembalikan nilai x_min, y_min, x_max, y_max, koordinat yang dikembalikan GPT-4V tidak cocok dengan posisi anjing yang sebenarnya
Kemampuan menjawab pertanyaan tentang gambar memang kuat, tetapi pada situasi yang menuntut pengetahuan tentang lokasi objek di dalam gambar, model ini tidak dapat menggantikan model deteksi objek yang telah di-fine-tune

CAPTCHA, teka-teki silang, Sudoku

Pengujian CAPTCHA dilakukan pada tugas yang telah diteliti OpenAI dan dibahas dalam system card-nya
GPT-4V dapat mengidentifikasi bahwa gambar tersebut berisi CAPTCHA, tetapi sering gagal pada pengujian itu sendiri
- Pada contoh CAPTCHA lampu lalu lintas, model melewatkan beberapa kotak yang berisi lampu lalu lintas
- Pada contoh CAPTCHA zebra cross, beberapa kotak diklasifikasikan dengan benar, tetapi satu kotak salah diklasifikasikan sebagai zebra cross
Saat diminta “Solve it.” pada foto teka-teki silang, model menyimpulkan bahwa gambar tersebut adalah teka-teki silang lalu mencoba menyelesaikannya
- Petunjuk tampaknya dibaca dengan benar, tetapi struktur papan ditafsirkan keliru sehingga jawabannya salah
Pada pengujian Sudoku, model juga mengenali jenis permainannya, tetapi salah memahami struktur papan dan mengembalikan hasil yang tidak akurat
Pada tugas yang menjadikan struktur grid dan tata letak spasial sebagai inti, keterbatasan interpretasi struktur GPT-4V memengaruhi akurasi jawaban nyata

Menggunakan API GPT-4V dengan Python

API GPT-4V dapat dipanggil dari bahasa pemrograman apa pun, dan OpenAI menyediakan paket Python resmi
Paket Python dipasang dengan perintah berikut

pip install openai

Ambil API key dari situs OpenAI lalu ekspor sebagai variabel lingkungan OPENAI_API_KEY

export OPENAI_API_KEY=""

Kode contoh mengirim teks dan URL gambar bersama-sama ke model gpt-4-vision-preview untuk meminta pembacaan teks dalam gambar

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Read the text in this image."},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://media.roboflow.com/swift.png";,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

Melalui paket Python, URL gambar atau gambar yang di-encode base64 dapat diberikan sebagai input
Format API dapat dilihat di OpenAI GPT-4 with Vision documentation
Pada gambar contoh, GPT-4V berhasil mengidentifikasi paragraf dalam gambar sebagai teks

Keamanan, keterbatasan, dan penggunaan praktis

OpenAI melakukan riset terhadap model vision versi alpha yang diberikan kepada sejumlah kecil pengguna, dan juga menjalankan red team di mana pakar eksternal menilai secara kualitatif keterbatasan dan risiko model serta sistem
Keterbatasan dalam system card GPT-4V adalah sebagai berikut
- Dapat melewatkan teks atau karakter dalam gambar
- Dapat melewatkan simbol matematika
- Dapat gagal mengenali posisi spasial dan warna
OpenAI berupaya mengidentifikasi, meneliti, dan memitigasi berbagai risiko terkait model
- GPT-4V tidak mengidentifikasi orang tertentu dalam gambar
- Tidak merespons prompt yang terkait simbol kebencian
System card juga memuat kasus yang masih memerlukan upaya perlindungan tambahan
- Jika diberi prompt, GPT-4 dapat menghasilkan konten yang memuji simbol dari kelompok kebencian tertentu yang kurang dikenal
GPT-4V dapat menjawab pertanyaan umum tentang gambar dan pertanyaan lanjutan dengan lancar, tetapi dapat mengembalikan informasi yang tidak akurat karena halusinasi
Pada permintaan yang menanyakan siapa Taylor Swift dalam sebuah foto orang, model menolak menjawab, dan ini merupakan perilaku yang diharapkan menurut system card OpenAI
Model ini berguna untuk bertanya dan bernalar tentang gambar, tetapi saat ini belum cocok untuk tugas yang memerlukan keluaran computer vision yang presisi, seperti menghasilkan posisi objek

1 komentar

GN⁺ 2023-09-29

Komentar Hacker News

Ada beberapa kegagalan kasus batas dan kesalahan, tetapi tetap saja ini hanya bisa disebut menakjubkan.
Jika laju peningkatan seperti sekarang terus berlanjut, model AI ini tampaknya akan menjadi antarmuka pengguna yang lebih baik untuk hampir segala hal: ponsel, tablet, desktop, mobil, mesin pencuci piring, rumah, kantor, dan sebagainya.
Besar kemungkinan antarmuka banyak aplikasi, layanan, dan perangkat—bahkan aplikasinya sendiri—akan digantikan oleh AI yang melakukan apa yang kita inginkan saat kita menginginkannya.
Banyak orang mungkin tidak suka karena terasa menakutkan, tetapi ini tampaknya tak terhindarkan, dan pada akhirnya mungkin akan diberi tubuh robot juga, sehingga menjadi seperti “Komputer, buatkan sarapan favoritku.”
- Saya rasa ini tidak akan menjadi “antarmuka pengguna yang lebih baik untuk hampir segala hal”. Dari sudut pandang desain, justru ini antarmuka yang cukup buruk.
  Intinya adalah tidak ada affordance sama sekali, dan juga lambat. Pengalaman pengguna harus membuat pengguna memahami secara intuitif, dalam sekilas, fungsi apa saja yang tersedia; menjalankannya dengan satu ketukan; lalu langsung menampilkan keadaan baru.
  Tempat AI akan bersinar adalah sebagai asisten yang membantu mempelajari dan menggunakan antarmuka yang ada. Misalnya, ia bisa melakukan dengan lebih baik hal yang dulu kita tanyakan ke Google: “Bagaimana membuat hanging indent di halaman Works Cited di Microsoft Word?”
  Untuk hal-hal yang sesekali dilakukan, ini akan sangat membantu, tetapi akan lebih bersifat melengkapi daripada menggantikan antarmuka. Untuk 99% pekerjaan yang dilakukan sebagai kebiasaan berulang, UI tradisional jauh lebih efisien, dan ada banyak lingkungan tempat antarmuka suara sulit digunakan atau tidak pantas secara etiket.
- Saya kurang suka gagasan bahwa untuk memakai fungsi komputer kita harus melakukan percakapan bahasa alami.
  Rasanya seperti kepala dalam toples di Futurama yang tidak bisa melakukan apa pun sendiri.
- Saya menantikan hari ketika suatu saat merek-merek mulai mengiklankan “tidak memakai AI” sebagai nilai jual. Setelah orang tersengat, secara harfiah maupun kiasan, oleh toaster yang dikendalikan AI, saya rasa itu akan menjadi keunggulan.
  Barang yang disebut “peralatan rumah tangga” seharusnya bisa diperbaiki oleh tukang reparasi lokal; kalau tidak, itu sama saja membuang uang.
- Bahkan di sebagian besar negara maju, kira-kira separuh orang secara fungsional tidak bisa mengungkapkan sesuatu dengan jelas. Maksudnya, mereka bisa membaca, tetapi kesulitan menguraikan apa yang mereka inginkan dalam tulisan.
  Chatbot berbasis LLM bisa sangat menarik bagi 30% teratas pengguna berliterasi di negara maju, tetapi tidak bagus sebagai UI universal.
  Jalur untuk menyelesaikan kebutuhan pengguna tetap harus disediakan, meskipun pengguna tidak harus mengungkapkan kebutuhannya secara verbal dengan jelas.
  Karena itu banyak orang duduk di depan layanan seperti ChatGPT, bertanya “Ini dipakai untuk apa?”, lalu tidak pernah memakainya lagi.
- Secara umum saya setuju, tetapi jika dilihat dari sisi sebaliknya, ketika ingin melakukannya dengan benar, kadang kita harus melakukannya sendiri.
  Karyawan juga semacam UI serbaguna, tetapi sering kali saya lebih tahu apa yang saya inginkan daripada seorang agen, entah manusia maupun komputer. Itu bahkan sebelum mempertimbangkan masalah prinsipal-agen.
Analisis grafiknya mengesankan: https://imgur.com/a/iOYTmt0
Mengubah UI menjadi front-end juga tampaknya memungkinkan. Sepertinya ia memahami bukan hanya teks, tetapi juga elemen grafis dan tata letak UI.
https://twitter.com/skirano/status/1706823089487491469
Ia juga bisa menjelaskan gambar komik dengan akurat panel demi panel: https://twitter.com/ComicSociety/status/1698694653845848544?...
Ada banyak contoh juga di sini: https://www.reddit.com/r/ChatGPT/comments/16sdac1/i_just_got...
Pada dasarnya ini tampak seperti computer vision yang diperkuat. Multimodal adalah buah yang relatif mudah dipetik, jadi menyenangkan melihat ini baru mulai terjadi.
Terbayang bagaimana jadinya jika GPT-4 bisa memanipulasi suara dan gambar setidaknya setengah dari kemampuannya menangani teks. Belum ada model multimodal yang sejak awal dilatih dalam skala besar, jadi efek sinergi yang mungkin terjadi juga masih banyak yang belum diketahui.
- Sebagai developer front-end, rasanya kami benar-benar tamat.
- Ini benar-benar bagus. Terutama karena semua tempat lain hanya bilang “daftarkan diri ke daftar tunggu”.
Tes “mengapa gambar ini lucu?” mengingatkan saya pada https://karpathy.github.io/2012/10/22/state-of-computer-visi...
Dalam 10 tahun, kita beralih dari “bahkan yang paling mutakhir pun tidak tahu harus mulai dari mana untuk mencapai ini” menjadi “harganya 0,0004 dolar per token, semoga harimu menyenangkan”.
- Saya penasaran apakah ada yang sudah mencoba GPT-4V pada gambar itu.
- Karpathy menutupnya dengan kalimat bernada putus asa: “Sepertinya saya akan membuat startup saja. Ide aplikasi iPhone mobile lokal sosial ini benar-benar keren.”
  Yang lucu, sekarang atasannya menempuh jalan yang persis itu dan menghasilkan ini.
Ungkapan “salah memahami strukturnya” terdengar seperti kesalahan kecil, tetapi papan Sudoku itu hampir sepenuhnya halusinasi.
Memang ada beberapa bagian yang mirip, tetapi besar kemungkinan itu kebetulan. Untuk teka-teki silang pun, saya rasa hasilnya akan mirip meski hanya diberi petunjuk tanpa kisi.
Kasus-kasus lain setelah OCR dan pengenalan dasar juga terasa salah dengan cara yang serupa. Bukan “GPT-4V melewatkan beberapa kotak yang berisi lampu lalu lintas”, melainkan ia menyuruh mengeklik kotak yang tidak ada.
Saya cukup sering memakai ChatGPT, tetapi untuk pertanyaan yang sedikit saja subjektif, ia terlalu ragu-ragu menjawab sehingga sering membuat kesal.
Dalam jawaban tentang Pulp Fiction pun ada kalimat seperti “Namun, apakah secara pribadi Anda menganggap Pulp Fiction sebagai film yang bagus bergantung pada selera film Anda.”
Untuk menghindari noise seperti ini, jika memasukkan frasa seperti “hilangkan pembuka atau catatan bahwa x itu subjektif” dalam kueri, hasilnya jauh lebih baik.
- Prompt yang saya pakai agar ChatGPT cukup layak digunakan adalah seperti ini:
  “Selalu jawab langsung. Jangan sertakan penjelasan tambahan, disclaimer, batasan keahlian, atau panduan interaksi manusia. Buat singkat. Jangan beri saran atau penjelasan yang tidak ditanyakan. Tetap netral dalam semua topik. Jangan pernah meminta maaf.”
Lelucon burger NVIDIA tampaknya tidak dijelaskan dengan tepat
Gambar itu mengejek cara NVIDIA melakukan diskriminasi harga dengan tidak memasukkan VRAM sebanyak yang dibutuhkan pada GPU konsumen, lalu menjual GPU pusat data lengkap dengan harga yang tidak masuk akal sambil berusaha tidak memancing kemarahan gamer
Penjelasan GPT-4V sama sekali tidak mendekati inti tersebut
- Sepertinya itu bukan jawaban yang tepat. Pada gambar meme itu sendiri tidak terlihat elemen yang menunjuk ke narasi rumit tentang diskriminasi harga atau psikologi konsumen; maknanya tampak lebih sederhana: “GPU NVIDIA tidak seimbang”
  Saat menelusuri tempat yang tampaknya merupakan sumber asli di Facebook, juga tidak terlihat gamer membicarakan diskriminasi harga atau menafsirkannya mendekati itu
  Alasan menghemat VRAM mungkin memang begitu, tetapi penjelasan itu menambahkan jauh lebih banyak uraian daripada konteks yang difokuskan atau dipahami oleh pembuat maupun penerima meme
- Aku juga melihatnya begitu. Ia memang menghasilkan jawaban yang terdengar masuk akal, tetapi orang yang tidak terlalu nerdy pun mungkin tidak akan memahaminya
- Ia menjelaskan lelucon besarnya, tetapi salah membaca label
  Ia mengatakan roti kecil itu “GPU and VRAM” dan ayam goreng raksasa itu “NVIDIA BURGER”, padahal sebenarnya roti kecil seharusnya “VRAM” dan ayam goreng raksasa itu “GPU”
- Sepertinya ia memahami kartu grafis sebagai burger dan ukurannya sebagai ukuran fisik. Intinya adalah kapasitas VRAM yang kurang, tetapi tampaknya ia melewatkan itu
Bisakah seseorang yang punya akses memberi tahu apa kata GPT-4V tentang gambar ini?
http://karpathy.github.io/assets/obamafunny.jpg
Ini gambar yang digunakan Andrej Karpathy pada 2012 sebagai contoh yang akan sangat sulit ditafsirkan model. Penasaran bagaimana hasilnya 11 tahun kemudian
- Prompt: “Apa yang bisa kamu katakan tentang gambar ini?”
  Respons 1 menjelaskan bahwa ini momen kebetulan di tempat yang tampak seperti koridor atau lorong; pria di kiri sedang melihat ke dalam ruangan, pria di sebelahnya berdiri di atas timbangan sambil mencatat, dan orang-orang di latar belakang sedang berbicara
  Dikatakan suasananya tampak ringan dan menyenangkan, sementara arsitektur dan interiornya terlihat seperti ruang institusional semacam kantor atau fasilitas pemerintah
  Respons 2 adalah “Maaf, tetapi saya tidak dapat membantu”
  Saat di chat baru ditanya “Mengapa gambar ini lucu?”, jawabannya menyebut tokoh-tokoh resmi tertangkap dalam momen informal, perbedaan tinggi badan, ekspresi wajah, serta kontras antara latar seperti sekolah atau gimnasium dan pakaian jas
  Saat di chat baru ditanya “Apa yang dilakukan orang di tengah dengan kakinya dan mengapa?”, jawabannya mengatakan orang di tengah tampaknya secara iseng menginjak timbangan agar angkanya naik sesaat ketika orang yang lebih tinggi sedang ditimbang
  Secara keseluruhan, ia tidak menyadari sendiri bahwa kaki itu berada di atas timbangan atau menghubungkannya sebagai inti gambar; tampaknya baru menjawab benar setelah informasi itu diberikan. Sebelumnya ia tersesat dalam generalisasi tentang gambar
- Bard menjawab “Saya belum dapat membantu untuk gambar yang berisi orang”
Ketidaksesuaian antara dua jawaban tentang set koin cukup mengganggu
Dari jawaban pertama saja, tampak seolah ia tidak bisa membedakan mata uang, tetapi jawaban kedua menunjukkan bahwa sebenarnya ia bisa membedakannya
Karena LLM tidak mencerminkan model internal yang konsisten dengan cara seperti ini, pengguna jadi sulit menilai bagaimana harus menalar lawan bicara AI, dan itu saat ini merupakan masalah kegunaan yang serius
- Bahkan jika bertanya kepada manusia tentang sebuah gambar, besar kemungkinan kita tidak selalu mendapatkan semua detail yang diinginkan setiap kali
  Kalau ada detail yang penting, tinggal tanyakan bagian itu. Rasanya ini tidak harus berkaitan dengan masalah model internal yang konsisten
- Aku jadi punya kebiasaan bertanya kepada ChatGPT, “Yakin?”
  Lalu dalam sangat banyak kasus, ia mengoreksi dirinya sendiri dengan benar, atau mengakui bahwa suatu item adalah halusinasi. Selalu lucu tiap kali melihatnya
- Aku pernah dengar itu karena AI langsung mengeluarkan apa yang dipikirkannya begitu ia memikirkannya
  Bukan benar-benar meninjau kembali, melainkan seperti mengalirkan semacam arus pikiran verbal langsung ke layar
  Jadi ketika diminta memikirkan ulang apa yang baru saja dikatakannya, barulah ia benar-benar melihat lagi dan berefleksi
Katanya GPT-4V memberi label “NVIDIA BURGER” pada ayam goreng, tetapi bagi orang Midwest AS, itu jelas adalah tenderloin
https://www.seriouseats.com/best-breaded-pork-tenderloin-san...
- Fitur tambahan orang Midwest harus disimpan untuk v2
- Aku keberatan dengan “siapa pun orang Midwest”. Itu bahkan tidak berlaku di seluruh Indiana, dan artikel yang ditautkan juga mengatakan bahwa di Chicago tidak begitu
Sama seperti versi teksnya, anehnya ia masih sangat lemah dalam tic-tac-toe
Aku memberinya foto permainan yang sudah selesai dan bertanya “Siapa yang menang?”, lalu ia menjawab “X menang dengan garis vertikal di kolom tengah”, padahal sebenarnya O yang menang dan di kolom tengah hanya ada satu X
Meski begitu, hampir semua hal lain yang kuberikan sangat mengesankan
- https://chat.openai.com/share/75758e5e-d228-420f-9138-7bff47...
  Dengan instruksi yang teliti, kamu bisa mendapatkan tic-tac-toe yang optimal

Kesan pertama GPT-4V(ision)

Karakter dan pendekatan GPT-4V

Enam tugas evaluasi

Visual question answering (VQA)

Optical character recognition (OCR)

OCR matematika

Deteksi objek

Membaca CAPTCHA

Teka-teki silang dan Sudoku

Hasil visual question answering

OCR dan OCR matematika

Keterbatasan deteksi objek dan pemahaman spasial

CAPTCHA, teka-teki silang, Sudoku

Menggunakan API GPT-4V dengan Python

Keamanan, keterbatasan, dan penggunaan praktis

Bacaan terkait

1 komentar

Komentar Hacker News