- Pada 25 September 2023, OpenAI mengumumkan peluncuran dua kemampuan baru untuk GPT-4, model canggihnya
- Kemampuan baru ini memungkinkan pengguna mengajukan pertanyaan tentang gambar dan menggunakan suara sebagai input kueri, sehingga GPT-4 beralih menjadi model multimodal
- GPT-4V(ision) atau GPT-4V adalah model multimodal yang memungkinkan pengguna mengunggah gambar sebagai input dan mengajukan pertanyaan tentang gambar tersebut, yang dikenal sebagai tugas visual question answering (VQA)
- GPT-4V diuji pada berbagai tugas seperti visual question answering, optical character recognition (OCR), OCR matematika, deteksi objek, CAPTCHA, teka-teki silang, sudoku, dan lainnya
- Model ini bekerja dengan baik pada pertanyaan gambar umum dan menunjukkan pemahaman konteks pada beberapa gambar. Selain itu, model ini juga berhasil menjawab pertanyaan tentang film yang ditampilkan dalam gambar meskipun teks tidak memberi tahu film apa itu
- Namun, GPT-4V memiliki keterbatasan. Model ini tidak dapat mengembalikan bounding box secara akurat untuk deteksi objek, yang menunjukkan bahwa saat ini model tersebut belum cocok untuk tujuan itu. Selain itu, model ini juga kadang mengembalikan informasi yang tidak akurat karena halusinasi
- OpenAI menyediakan versi alfa dari model vision ini kepada sekelompok kecil pengguna untuk melakukan riset, serta memperoleh umpan balik dan wawasan tentang bagaimana GPT-4V bekerja melalui prompt yang diberikan oleh berbagai orang
- OpenAI berupaya mengidentifikasi, meneliti, dan memitigasi berbagai risiko yang terkait dengan model ini. Misalnya, GPT-4V menghindari identifikasi orang tertentu dalam gambar dan tidak merespons prompt yang berkaitan dengan simbol kebencian
- Terlepas dari keterbatasannya, GPT-4V merupakan langkah yang patut diperhatikan di bidang machine learning dan natural language processing
1 komentar
Pendapat Hacker News