1 poin oleh GN⁺ 2023-09-29 | 1 komentar | Bagikan ke WhatsApp
  • Pada 25 September 2023, OpenAI mengumumkan peluncuran dua kemampuan baru untuk GPT-4, model canggihnya
  • Kemampuan baru ini memungkinkan pengguna mengajukan pertanyaan tentang gambar dan menggunakan suara sebagai input kueri, sehingga GPT-4 beralih menjadi model multimodal
  • GPT-4V(ision) atau GPT-4V adalah model multimodal yang memungkinkan pengguna mengunggah gambar sebagai input dan mengajukan pertanyaan tentang gambar tersebut, yang dikenal sebagai tugas visual question answering (VQA)
  • GPT-4V diuji pada berbagai tugas seperti visual question answering, optical character recognition (OCR), OCR matematika, deteksi objek, CAPTCHA, teka-teki silang, sudoku, dan lainnya
  • Model ini bekerja dengan baik pada pertanyaan gambar umum dan menunjukkan pemahaman konteks pada beberapa gambar. Selain itu, model ini juga berhasil menjawab pertanyaan tentang film yang ditampilkan dalam gambar meskipun teks tidak memberi tahu film apa itu
  • Namun, GPT-4V memiliki keterbatasan. Model ini tidak dapat mengembalikan bounding box secara akurat untuk deteksi objek, yang menunjukkan bahwa saat ini model tersebut belum cocok untuk tujuan itu. Selain itu, model ini juga kadang mengembalikan informasi yang tidak akurat karena halusinasi
  • OpenAI menyediakan versi alfa dari model vision ini kepada sekelompok kecil pengguna untuk melakukan riset, serta memperoleh umpan balik dan wawasan tentang bagaimana GPT-4V bekerja melalui prompt yang diberikan oleh berbagai orang
  • OpenAI berupaya mengidentifikasi, meneliti, dan memitigasi berbagai risiko yang terkait dengan model ini. Misalnya, GPT-4V menghindari identifikasi orang tertentu dalam gambar dan tidak merespons prompt yang berkaitan dengan simbol kebencian
  • Terlepas dari keterbatasannya, GPT-4V merupakan langkah yang patut diperhatikan di bidang machine learning dan natural language processing

1 komentar

 
GN⁺ 2023-09-29
Pendapat Hacker News
  • Artikel tentang potensi model AI GPT-4V, diperkirakan dapat menjadi antarmuka pengguna yang sangat baik untuk berbagai perangkat dan aplikasi.
  • Meski ada beberapa kegagalan ekstrem, kemampuan AI untuk memahami dan berinteraksi dengan elemen UI serta tata letak sangat mengesankan.
  • GPT-4V dapat menjelaskan gambar komik secara akurat per panel, menunjukkan kemampuan computer vision tingkat lanjut.
  • Kemampuan AI dalam menafsirkan humor dari gambar telah meningkat pesat selama 10 tahun terakhir.
  • Beberapa keterbatasan GPT-4V mencakup salah menafsirkan struktur papan permainan atau melewatkan elemen tertentu dalam gambar.
  • AI tidak dapat menjelaskan lelucon tentang strategi penetapan harga GPU NVIDIA dengan akurat.
  • Respons GPT-4V bisa tidak konsisten, terutama saat menafsirkan mata uang dalam sekumpulan koin.
  • AI sering ragu menjawab pertanyaan subjektif, yang menimbulkan ketidakpuasan bagi sebagian pengguna.
  • Meski memiliki kemampuan canggih, GPT-4V masih kesulitan dengan permainan sederhana seperti tic-tac-toe.