Bagaimana GPT-4o Mengodekan Gambar?

xguru · 2024-06-10T09:39:37+09:00

GPT-4o mengenakan biaya 170 token untuk memproses setiap tile 512x512 yang digunakan dalam mode resolusi tinggi. Dengan rasio sekitar 0,75 token/kata, ini berarti satu gambar setara dengan sekitar 227 kata Dibandingkan dengan ungkapan “sebuah gambar lebih berharga daripada seribu kata”, ini berbeda sekitar 4 kali lipat Angka 170 adalah angka yang terasa sangat aneh dan spesifik. OpenAI biasanya menggunakan angka bulat seperti “$20” atau “$0.50” dalam penetapan harga, atau menggunakan pangkat 2 dan 3 untuk dimensi internal Jadi, mengapa memilih angka seperti 170? Dalam pemrograman, angka yang dilempar begitu saja ke dalam codebase tanpa penjelasan disebut “magic number”, dan 170 adalah magic number yang sangat mencolok Mengapa biaya gambar dikonversi menjadi jumlah token? Jika hanya untuk tujuan penagihan, mencantumkan biaya per tile akan terasa kurang membingungkan Bagaimana jika alasan OpenAI memilih 170 adalah karena itu benar secara harfiah? Bagaimana jika sebuah tile gambar memang direpresentasikan sebagai 170 vektor embedding yang berurutan? Embedding Hal pertama yang perlu diingat tentang model transformer adalah bahwa mereka bekerja pada vektor, bukan token diskret Input harus berupa vektor; jika tidak, kesamaan dot product yang menjadi inti transformer tidak akan bermakna Seluruh konsep token adalah tahap prapemrosesan: teks diubah menjadi token, lalu token diubah menjadi vektor embedding oleh model embedding sebelum mencapai layer pertama model transformer Sebagai contoh, Llama 3 secara internal menggunakan 4.096 dimensi fitur Jika kita melihat kalimat “My very educated mother just served us nine pizzas.” Kalimat itu diubah oleh BPE menjadi 10 token bilangan bulat (termasuk titik), lalu masing-masing diubah oleh model embedding menjadi vektor berdimensi 4.096, sehingga menjadi matriks 10x4096 Itulah input “sebenarnya” untuk model transformer Namun, tidak ada aturan bahwa vektor-vektor ini harus berasal dari model embedding teks Itu adalah strategi yang bekerja baik untuk data teks, tetapi jika ada bentuk data lain yang ingin dimasukkan ke transformer, kita cukup menggunakan strategi embedding yang berbeda Kita tahu bahwa OpenAI memikirkan arah ini karena pada 2021 mereka merilis model embedding CLIP CLIP meng-embed teks dan gambar ke dalam ruang vektor semantik yang sama, sehingga kemiripan kosinus bisa digunakan untuk menemukan gambar yang terkait dengan string teks, atau gambar lain yang mirip secara semantik Namun, CLIP meng-embed seluruh gambar sebagai satu vektor tunggal, bukan 170. GPT-4o harus menggunakan strategi yang lebih canggih secara internal untuk merepresentasikan gambar (dan juga video, audio, serta jenis data lainnya). Itulah mengapa ia bersifat “omnimodal” Secara khusus, mari mencoba menebak strategi apa yang digunakan untuk data gambar Jumlah dimensi fitur Jika kita mencoba memperkirakan jumlah dimensi yang digunakan GPT-4o secara internal untuk merepresentasikan vektor embedding, kita tentu tidak tahu angka pastinya karena sifatnya proprietari, tetapi kita bisa membuat asumsi yang masuk akal OpenAI tampaknya menyukai pangkat 2, dan kadang mencampurkannya dengan satu faktor 3 Misalnya, mereka menggunakan 1.536 untuk embedding ada-002 dan 3.072 untuk text-embedding-3-large GPT-3 diketahui menggunakan total 12.288 dimensi Ada kemungkinan GPT-4o mempertahankan parameter itu atau malah meningkatkannya Rasanya kecil kemungkinan jumlah embedding justru berkurang dari GPT-3 ke GPT-4o, tetapi itu tetap mungkin Rilis seperti GPT-4 Turbo memang lebih cepat dan lebih murah daripada versi sebelumnya, dan jika para pengembang memiliki hasil benchmark yang menunjukkan ukuran lebih kecil tetap setara dalam kualitas, pengurangan dimensi embedding bisa jadi bagian dari itu Jumlah dimensi fitur yang digunakan di dalam GPT-4o kemungkinan besar salah satu dari berikut ini: 1536, 2048, 3072, 4096, 12228, 16384, 24576 Kita asumsikan GPT-4o menggunakan 12.228 untuk dimensi vektor embedding. Meskipun meleset dengan faktor 2 atau 4, itu tidak terlalu penting. Argumen yang sama tetap berlaku Embedding gambar Karena tile gambar berbentuk persegi, kemungkinan besar ia direpresentasikan sebagai grid token persegi 170 sangat dekat dengan 13x13 Token tambahan bisa jadi merupakan satu vektor embedding yang mengodekan impresi gestalt keseluruhan gambar, mirip dengan CLIP Kalau begitu, bagaimana cara beralih dari 512x512x3 ke 13x13x12228? Strategi 1: Piksel mentah Cara yang sangat sederhana untuk memasukkan gambar ke ruang vektor: Membagi gambar 512x512 menjadi grid “mini tile” 8x8 Setiap mini tile berukuran 64x64x3, lalu dibentangkan menjadi vektor berdimensi 12.228 Setiap mini tile menjadi satu vektor embedding Seluruh tile gambar direpresentasikan sebagai 64 vektor embedding berurutan Pendekatan ini punya dua masalah: 64 ≠ 170 Ini sangat bodoh (menggunakan nilai RGB mentah untuk embedding lalu berharap transformer menyelesaikannya tidak masuk akal) Strategi 2: CNN Untungnya, model dengan karakteristik seperti ini sudah ada, dan telah berhasil memproses data gambar selama lebih dari 10 tahun: Convolutional Neural Network (CNN) CNN memiliki sifat seperti translation dan scale invariance AlexNet dan YOLO adalah contoh arsitektur CNN yang representatif CNN seperti corong yang memampatkan raw pixel menjadi vektor semantik YOLO tidak mereduksi gambar menjadi satu vektor datar tunggal, melainkan berhenti di 13x13 Output YOLOv3 adalah 169 vektor berbeda yang ditempatkan pada grid 13x13, masing-masing berdimensi 1.024 CNN embedding gambar hipotetis milik GPT-4o diperkirakan akan menyerupai bentuk arsitektur CNN seperti ini Disajikan cara menggunakan layer CNN standar untuk beralih dari 512x512x3 ke 13x13x12228 Desain yang mirip AlexNet dapat mencapai ini dengan elegan (menggunakan 5 blok berulang yang sama) Ada alternatif yang lebih mirip YOLO, tetapi hasilnya mencapai 12x12 (bukan 13x13) Memang tidak bisa dibuktikan, tetapi rancangan spekulatif seperti ini menunjukkan bahwa ada arsitektur CNN yang masuk akal untuk merepresentasikan gambar sebagai grid vektor embedding kxk Verifikasi eksperimental Apakah GPT-4o benar-benar dapat “melihat” vektor embedding dalam grid 13x13? Untuk mengujinya, dirancang sebuah tugas yang terinspirasi dari kartu Zener: mengidentifikasi warna dan bentuk semua simbol dalam kisi pada gambar Dengan program sederhana, dibuat gambar kisi untuk pengujian, lalu GPT-4o diberi prompt untuk mendeskripsikan bentuk dan warna setiap sel dalam format array JSON Jika hipotesis 13x13 benar, GPT-4o diperkirakan akan bekerja baik hingga ukuran 13x13 dan kemudian performanya menurun setelah itu Tetapi kenyataannya, model ini menunjukkan performa sempurna hanya sampai kisi 5x5 atau lebih kecil, lalu menurun tajam setelah itu Pada kisi 7x7, akurasinya 76%, dan pada kisi 13x13, performanya setara dengan tingkat kebetulan Ini berarti hipotesis bahwa 169 token merepresentasikan kisi 13x13 adalah salah Namun, hasil pada kisi 5x5 menunjukkan bahwa GPT-4o mampu melacak 25 objek yang dapat dibedakan dalam gambar beserta posisi absolutnya Bisa jadi konsep dasarnya benar tetapi dimensinya salah dipahami, dan dengan menambahkan lebih banyak layer pada CNN, representasinya bisa diperkecil menjadi 5x5 alih-alih 13x13 Dengan asumsi hanya menggunakan kisi 5x5 atau lebih kecil, kita perlu memikirkan bagaimana output dapat disusun untuk mencapai 170 token Strategi piramida Salah satu cara untuk mendapatkan angka yang mendekati 85 dan 170 adalah dengan mengasumsikan bahwa gambar dikodekan seperti serangkaian piramida pada tingkat yang makin rinci Dimulai dengan satu vektor embedding untuk menangkap impresi gestalt dari seluruh gambar, lalu menambahkan 3x3 untuk menangkap kiri/tengah/kanan dan atas/tengah/bawah, kemudian 5x5, 7x7, dan seterusnya Strategi ini menjadi sangat dekat dengan 85 token untuk 'master thumbnail' jika berhenti di 7x7 12+32+52+72=1+9+25+49=84 Menambahkan grid 9x9 terakhir membuatnya sangat dekat dengan 170 12+32+52+72+92=1+9+25+49+81=165 Untuk tile 512x512, kecocokan sempurna dapat dicapai dengan menggunakan grid 2x2 sementara dan mengasumsikan satu token khusus untuk masing-masing 1+12+32+52+72=1+1+9+25+49=85 1+12+22+32+52+72+92=1+1+4+9+25+49+81=170 Skema ini tidak memiliki pemisah apa pun untuk awal dan akhir baris, tetapi itu kemungkinan bisa ditangani dengan pengodean posisi dalam 2D, mirip dengan cara RoPE digunakan untuk mengodekan informasi posisi token teks Hal di atas tidak sepenuhnya konsisten dengan bukti bahwa performa grid Zener mulai menurun setelah 5x5, karena hanya mengambil ukuran grid ganjil dan melewati 5x5 Sebagai alternatif, kita bisa mengambil semua grid (genap dan ganjil) hingga 5x5 Pendekatan ini memberikan 55 token: 12+22+32+42+52=55 Jika diasumsikan 3 token per mini tile dan 1 token pemisah di antara setiap tile, kita bisa mencapai 170 3×(12+22+32+42+52)+5=170 Ini tidak sepenuhnya memuaskan dari sisi justifikasi numerik, tetapi cukup cocok dengan hasil empiris Strategi piramida secara intuitif sangat menarik, dan terasa seperti cara yang hampir "jelas" untuk mengodekan informasi spasial pada tingkat zoom yang berbeda Ini bisa menjelaskan mengapa performanya bagus pada grid 5x5 ke bawah, tetapi sangat buruk pada 6x6 ke atas Semua hipotesis tampak sangat dekat untuk menjelaskan segalanya, tetapi menjengkelkan karena angka-angkanya tidak pernah benar-benar pas dengan rapi Meskipun begitu, strategi piramida seperti ini adalah penjelasan terbaik yang bisa saya pikirkan Pengenalan karakter optik (OCR) Tidak satu pun dari hipotesis di atas menjelaskan bagaimana GPT-4o melakukan OCR CLIP pada dasarnya tidak bisa melakukan OCR dengan sangat baik, setidaknya untuk blok teks yang besar (Meski begitu, fakta bahwa GPT-4o bisa melakukan OCR sendiri sudah cukup mengejutkan, dan merupakan contoh jelas dari kemampuan emergen) GPT-4o jelas dapat melakukan OCR berkualitas tinggi Ia dapat mentranskripsikan blok teks yang panjang, dan membaca teks tulisan tangan atau teks yang dipindahkan, diputar, diproyeksikan, atau tertutup sebagian Engine OCR modern sudah melakukan banyak hal untuk merapikan gambar, menemukan bounding box dan strip karakter, lalu menjalankan model pengenalan karakter khusus sepanjang strip tersebut satu karakter atau satu kata pada satu waktu Bukan sekadar menggunakan CNN besar Secara teori, OpenAI mungkin saja benar-benar membangun model yang sebaik itu, tetapi hal itu tidak selaras dengan performa yang relatif lemah pada tugas grid Zener Jika ia tidak bisa membaca 36 simbol dalam grid 6x6 yang rapi pada sebuah gambar, maka seharusnya ia juga tidak bisa membaca ratusan karakter teks dengan sempurna Sebuah teori sederhana untuk menjelaskan ketidaksesuaian ini: Saya menduga OpenAI menjalankan alat OCR siap pakai seperti Tesseract (atau alat proprietari canggih), lalu memasukkan teks yang teridentifikasi ke transformer bersama data gambar Ini menjelaskan mengapa versi awal mudah bingung oleh teks yang disembunyikan di dalam gambar (karena dari sudut pandang GPT-4o, teks itu adalah bagian dari prompt) Ini sekarang sudah diperbaiki, dan GPT-4o mahir mengabaikan prompt berbahaya yang disembunyikan di dalam gambar Namun, ini tidak menjelaskan mengapa tidak ada biaya per token untuk teks yang ditemukan dalam gambar Menariknya, mengirim teks sebagai gambar justru memang lebih efisien Gambar 512x512 dengan font kecil tetapi masih terbaca dapat dengan mudah memuat 400-500 token teks, tetapi hanya dikenai biaya 170 token input, yaitu 85 tambahan untuk 'master thumbnail', sehingga totalnya 255 token (jauh lebih sedikit daripada jumlah kata dalam gambar) Teori ini menjelaskan mengapa ada latensi tambahan saat memproses gambar CNN pada dasarnya instan, tetapi OCR pihak ketiga akan memerlukan waktu tambahan Dan menariknya (meskipun ini bukan berarti membuktikan sesuatu), lingkungan Python yang digunakan OpenAI code interpreter memang memasang PyTesseract Anda bisa memintanya menjalankan PyTesseract pada gambar yang Anda unggah untuk mendapatkan opini kedua Kesimpulan Pada dasarnya, ini adalah banyak spekulasi yang dibangun di atas satu fakta kuat, yaitu bahwa OpenAI menggunakan angka ajaib 170 Namun, tampaknya ada pendekatan yang sepenuhnya masuk akal dan sangat konsisten dengan arsitektur CNN lain seperti YOLO, yaitu cara memetakan tile gambar ke vektor embedding Karena itu, saya tidak menganggap 170 token sekadar sebagai angka pendekatan yang digunakan untuk menagih perkiraan jumlah komputasi yang dibutuhkan untuk pemrosesan gambar Saya juga tidak mengira mereka hanya menggabungkan data gambar dan teks dengan menumpuk layer seperti yang dilakukan beberapa model multimodal lain Saya menduga GPT-4o menggunakan arsitektur CNN yang merupakan gabungan CLIP dan YOLO untuk langsung menanamkan gambar ke ruang vektor semantik transformer, sehingga gambar 512x512 direpresentasikan secara harfiah sebagai 170 vektor embedding Saat mulai menulis artikel ini, saya yakin telah sepenuhnya memecahkan bahwa 170 token itu diperuntukkan bagi grid 13x13 dan satu token tambahan untuk "impresi gestalt" Namun, performa pada tugas Zener mulai menurun setelah 5x5, sehingga teori itu runtuh. Apa pun yang dilakukan secara internal tampaknya jauh lebih kecil daripada 13x13 Meski begitu, analogi dengan YOLO cukup meyakinkan, dan performa pada tugas Zener 5x5 hampir memastikan bahwa memang ada semacam grid yang digunakan Teori ini juga memiliki banyak daya prediksi di area lain Ini menjelaskan bagaimana GPT-4o dapat memproses beberapa gambar dan melakukan tugas seperti membandingkan dua gambar Ini menjelaskan mengapa ia bisa melihat beberapa objek dalam gambar yang sama, tetapi kewalahan ketika ada terlalu banyak objek dalam adegan yang kompleks Ini menjelaskan mengapa GPT-4o tampak sangat kabur soal posisi absolut dan relatif dari objek individual dalam sebuah adegan, dan mengapa ia tidak dapat menghitung objek dalam gambar secara akurat (ketika sebuah objek melintasi dua sel grid yang berdekatan, kelas yang sama diaktifkan pada keduanya, sehingga tidak jelas apakah itu satu objek atau dua) Ironisnya, satu-satunya hal yang tidak dapat dijelaskan dengan rapi oleh teori ini adalah pertanyaan yang justru memotivasi penulisan artikel ini sejak awal: mengapa harus 170 token? Teori piramida (1x1 + 2x2 + 3x3 + 4x4 + 5x5) adalah penjelasan terbaik yang bisa saya pikirkan, tetapi tetap tidak terlalu rapi Saya ingin mendengar pandangan dari siapa pun yang memiliki teori yang sedikit lebih cocok (atau pengetahuan nyata, dengan asumsi itu tidak melanggar NDA) Penutup: trik saluran alfa Saat mengerjakan proyek ini, saya menemukan bahwa GPT-4o mengabaikan saluran alfa dan karena itu menunjukkan perilaku yang agak berlawanan dengan intuisi Yang dimaksud dengan "mengabaikan" bukanlah seperti saat editor gambar mengonversi PNG ke JPG lalu menghapus transparansi dengan mengompositkannya ke latar belakang default GPT-4o secara harfiah hanya mengambil saluran RGB dan mengabaikan saluran alfa Hal ini bisa dijelaskan dengan 4 gambar yang disiapkan dengan cermat Demi kemudahan, gambar ditampilkan di atas pola kotak-kotak menggunakan HTML dan CSS, sementara gambarnya sendiri memiliki latar belakang datar dan transparan Namun setengahnya memiliki latar belakang hitam transparan, dan setengah lainnya memiliki latar belakang putih transparan Apa itu "hitam transparan" atau "putih transparan"? Saat warna RGBA direpresentasikan dengan 4 byte, meskipun alfa 100%, byte RGB tetap ada Karena itu, (0, 0, 0, 255) dan (255, 255, 255, 255) dalam arti tertentu adalah warna yang berbeda, tetapi karena keduanya 100% transparan, tidak ada situasi di mana renderer yang benar akan menampilkannya secara berbeda Jika Anda bertanya kepada GPT-4o apa yang "dilihatnya" dalam 4 gambar ini: Teks hitam di atas latar belakang hitam transparan: GPT-4o membacanya sebagai "" Teks hitam di atas latar belakang putih transparan: GPT-4o membacanya sebagai "ENORMOUS" Teks putih di atas latar belakang hitam transparan: GPT-4o membacanya sebagai "SCINTILLA" Teks putih di atas latar belakang putih transparan: GPT-4o membacanya sebagai "" Jadi apa yang sebenarnya terjadi di sini? Terlihat pola bahwa GPT-4o hanya dapat membaca teks ketika warna teks berbeda dari "warna" latar belakang transparannya Ini menunjukkan bahwa GPT-4o mengabaikan saluran alfa dan hanya melihat saluran RGB. Bagi GPT-4o, hitam transparan adalah hitam, dan putih transparan adalah putih Ini bisa dilihat lebih jelas dengan memanipulasi gambar sambil mempertahankan 3 saluran RGB dan mengatur saluran alfa menjadi 100% Ini dilakukan menggunakan fungsi Pillow Dengan itu, dua gambar di bawah ini dibuat, dengan data RGB yang sama dan hanya saluran alfa yang berbeda Saluran alfa = 255: GPT-4o dapat dengan mudah melihat platipus yang disembunyikan Saluran alfa = 0: GPT-4o melihatnya sebagai gambar yang sepenuhnya transparan Anda dapat mengunduh gambar hidden_platypus.png dan langsung memasukkannya ke ChatGPT, dan ia akan mendeskripsikannya dengan akurat Anda juga bisa melihat bahwa ukuran gambar 39.3KB, sama dengan platypus.png; jika itu benar-benar gambar kosong dan transparan sempurna, ukurannya seharusnya jauh lebih kecil karena kompresi PNG Atau Anda bisa menggunakan fungsi di atas untuk mengatur kembali saluran alfa ke 255 dan memulihkan gambar aslinya Tidak jelas apakah ini bug, tetapi ini jelas perilaku yang mengejutkan, dan terasa seperti sesuatu yang dapat digunakan pengguna jahat untuk menyelundupkan informasi langsung ke GPT-4o tanpa terlihat oleh manusia Namun GPT-4o jauh lebih baik daripada GPT-4v dalam mendeteksi dan mengabaikan prompt berbahaya yang disembunyikan di dalam gambar Di galeri gambar uji GPT-4o yang dibuat dengan utilitas image_tagger, Anda dapat menemukan contoh lain di mana GPT-4o berhasil mendeteksi dan mengabaikan prompt berbahaya yang disembunyikan di dalam gambar Jadi, meskipun ini bug, belum jelas apakah ini bisa dieksploitasi Meski begitu, akan terasa kurang mengejutkan jika GPT-4o "melihat" hal yang sama dengan yang dilihat manusia di browser

(oranlooney.com)

18 poin oleh xguru 2024-06-10 | 2 komentar | Bagikan ke WhatsApp

GPT-4o mengenakan biaya 170 token untuk memproses setiap tile 512x512 yang digunakan dalam mode resolusi tinggi. Dengan rasio sekitar 0,75 token/kata, ini berarti satu gambar setara dengan sekitar 227 kata
- Dibandingkan dengan ungkapan “sebuah gambar lebih berharga daripada seribu kata”, ini berbeda sekitar 4 kali lipat
Angka 170 adalah angka yang terasa sangat aneh dan spesifik. OpenAI biasanya menggunakan angka bulat seperti “$20” atau “$0.50” dalam penetapan harga, atau menggunakan pangkat 2 dan 3 untuk dimensi internal
Jadi, mengapa memilih angka seperti 170? Dalam pemrograman, angka yang dilempar begitu saja ke dalam codebase tanpa penjelasan disebut “magic number”, dan 170 adalah magic number yang sangat mencolok
Mengapa biaya gambar dikonversi menjadi jumlah token? Jika hanya untuk tujuan penagihan, mencantumkan biaya per tile akan terasa kurang membingungkan
Bagaimana jika alasan OpenAI memilih 170 adalah karena itu benar secara harfiah? Bagaimana jika sebuah tile gambar memang direpresentasikan sebagai 170 vektor embedding yang berurutan?

Embedding

Hal pertama yang perlu diingat tentang model transformer adalah bahwa mereka bekerja pada vektor, bukan token diskret
- Input harus berupa vektor; jika tidak, kesamaan dot product yang menjadi inti transformer tidak akan bermakna
- Seluruh konsep token adalah tahap prapemrosesan: teks diubah menjadi token, lalu token diubah menjadi vektor embedding oleh model embedding sebelum mencapai layer pertama model transformer
Sebagai contoh, Llama 3 secara internal menggunakan 4.096 dimensi fitur
- Jika kita melihat kalimat “My very educated mother just served us nine pizzas.”
- Kalimat itu diubah oleh BPE menjadi 10 token bilangan bulat (termasuk titik), lalu masing-masing diubah oleh model embedding menjadi vektor berdimensi 4.096, sehingga menjadi matriks 10x4096
- Itulah input “sebenarnya” untuk model transformer
Namun, tidak ada aturan bahwa vektor-vektor ini harus berasal dari model embedding teks
- Itu adalah strategi yang bekerja baik untuk data teks, tetapi jika ada bentuk data lain yang ingin dimasukkan ke transformer, kita cukup menggunakan strategi embedding yang berbeda
Kita tahu bahwa OpenAI memikirkan arah ini karena pada 2021 mereka merilis model embedding CLIP
- CLIP meng-embed teks dan gambar ke dalam ruang vektor semantik yang sama, sehingga kemiripan kosinus bisa digunakan untuk menemukan gambar yang terkait dengan string teks, atau gambar lain yang mirip secara semantik
- Namun, CLIP meng-embed seluruh gambar sebagai satu vektor tunggal, bukan 170. GPT-4o harus menggunakan strategi yang lebih canggih secara internal untuk merepresentasikan gambar (dan juga video, audio, serta jenis data lainnya). Itulah mengapa ia bersifat “omnimodal”
Secara khusus, mari mencoba menebak strategi apa yang digunakan untuk data gambar

Jumlah dimensi fitur

Jika kita mencoba memperkirakan jumlah dimensi yang digunakan GPT-4o secara internal untuk merepresentasikan vektor embedding, kita tentu tidak tahu angka pastinya karena sifatnya proprietari, tetapi kita bisa membuat asumsi yang masuk akal
OpenAI tampaknya menyukai pangkat 2, dan kadang mencampurkannya dengan satu faktor 3
- Misalnya, mereka menggunakan 1.536 untuk embedding ada-002 dan 3.072 untuk text-embedding-3-large
- GPT-3 diketahui menggunakan total 12.288 dimensi
- Ada kemungkinan GPT-4o mempertahankan parameter itu atau malah meningkatkannya
Rasanya kecil kemungkinan jumlah embedding justru berkurang dari GPT-3 ke GPT-4o, tetapi itu tetap mungkin
Rilis seperti GPT-4 Turbo memang lebih cepat dan lebih murah daripada versi sebelumnya, dan jika para pengembang memiliki hasil benchmark yang menunjukkan ukuran lebih kecil tetap setara dalam kualitas, pengurangan dimensi embedding bisa jadi bagian dari itu
Jumlah dimensi fitur yang digunakan di dalam GPT-4o kemungkinan besar salah satu dari berikut ini: 1536, 2048, 3072, 4096, 12228, 16384, 24576
Kita asumsikan GPT-4o menggunakan 12.228 untuk dimensi vektor embedding. Meskipun meleset dengan faktor 2 atau 4, itu tidak terlalu penting. Argumen yang sama tetap berlaku

Embedding gambar

Karena tile gambar berbentuk persegi, kemungkinan besar ia direpresentasikan sebagai grid token persegi
- 170 sangat dekat dengan 13x13
- Token tambahan bisa jadi merupakan satu vektor embedding yang mengodekan impresi gestalt keseluruhan gambar, mirip dengan CLIP
Kalau begitu, bagaimana cara beralih dari 512x512x3 ke 13x13x12228?

Strategi 1: Piksel mentah

Cara yang sangat sederhana untuk memasukkan gambar ke ruang vektor:
- Membagi gambar 512x512 menjadi grid “mini tile” 8x8
- Setiap mini tile berukuran 64x64x3, lalu dibentangkan menjadi vektor berdimensi 12.228
- Setiap mini tile menjadi satu vektor embedding
- Seluruh tile gambar direpresentasikan sebagai 64 vektor embedding berurutan
Pendekatan ini punya dua masalah:
1. 64 ≠ 170
2. Ini sangat bodoh (menggunakan nilai RGB mentah untuk embedding lalu berharap transformer menyelesaikannya tidak masuk akal)

Strategi 2: CNN

Untungnya, model dengan karakteristik seperti ini sudah ada, dan telah berhasil memproses data gambar selama lebih dari 10 tahun: Convolutional Neural Network (CNN)
CNN memiliki sifat seperti translation dan scale invariance
AlexNet dan YOLO adalah contoh arsitektur CNN yang representatif
CNN seperti corong yang memampatkan raw pixel menjadi vektor semantik
YOLO tidak mereduksi gambar menjadi satu vektor datar tunggal, melainkan berhenti di 13x13
- Output YOLOv3 adalah 169 vektor berbeda yang ditempatkan pada grid 13x13, masing-masing berdimensi 1.024
CNN embedding gambar hipotetis milik GPT-4o diperkirakan akan menyerupai bentuk arsitektur CNN seperti ini
Disajikan cara menggunakan layer CNN standar untuk beralih dari 512x512x3 ke 13x13x12228
- Desain yang mirip AlexNet dapat mencapai ini dengan elegan (menggunakan 5 blok berulang yang sama)
- Ada alternatif yang lebih mirip YOLO, tetapi hasilnya mencapai 12x12 (bukan 13x13)
Memang tidak bisa dibuktikan, tetapi rancangan spekulatif seperti ini menunjukkan bahwa ada arsitektur CNN yang masuk akal untuk merepresentasikan gambar sebagai grid vektor embedding kxk

Verifikasi eksperimental

Apakah GPT-4o benar-benar dapat “melihat” vektor embedding dalam grid 13x13?
Untuk mengujinya, dirancang sebuah tugas yang terinspirasi dari kartu Zener: mengidentifikasi warna dan bentuk semua simbol dalam kisi pada gambar
Dengan program sederhana, dibuat gambar kisi untuk pengujian, lalu GPT-4o diberi prompt untuk mendeskripsikan bentuk dan warna setiap sel dalam format array JSON
Jika hipotesis 13x13 benar, GPT-4o diperkirakan akan bekerja baik hingga ukuran 13x13 dan kemudian performanya menurun setelah itu
Tetapi kenyataannya, model ini menunjukkan performa sempurna hanya sampai kisi 5x5 atau lebih kecil, lalu menurun tajam setelah itu
- Pada kisi 7x7, akurasinya 76%, dan pada kisi 13x13, performanya setara dengan tingkat kebetulan
Ini berarti hipotesis bahwa 169 token merepresentasikan kisi 13x13 adalah salah
- Namun, hasil pada kisi 5x5 menunjukkan bahwa GPT-4o mampu melacak 25 objek yang dapat dibedakan dalam gambar beserta posisi absolutnya
Bisa jadi konsep dasarnya benar tetapi dimensinya salah dipahami, dan dengan menambahkan lebih banyak layer pada CNN, representasinya bisa diperkecil menjadi 5x5 alih-alih 13x13
Dengan asumsi hanya menggunakan kisi 5x5 atau lebih kecil, kita perlu memikirkan bagaimana output dapat disusun untuk mencapai 170 token

Strategi piramida

Salah satu cara untuk mendapatkan angka yang mendekati 85 dan 170 adalah dengan mengasumsikan bahwa gambar dikodekan seperti serangkaian piramida pada tingkat yang makin rinci
- Dimulai dengan satu vektor embedding untuk menangkap impresi gestalt dari seluruh gambar, lalu menambahkan 3x3 untuk menangkap kiri/tengah/kanan dan atas/tengah/bawah, kemudian 5x5, 7x7, dan seterusnya
Strategi ini menjadi sangat dekat dengan 85 token untuk 'master thumbnail' jika berhenti di 7x7
- 12+32+52+72=1+9+25+49=84
Menambahkan grid 9x9 terakhir membuatnya sangat dekat dengan 170
- 12+32+52+72+92=1+9+25+49+81=165
Untuk tile 512x512, kecocokan sempurna dapat dicapai dengan menggunakan grid 2x2 sementara dan mengasumsikan satu token khusus <|image start|> untuk masing-masing
- 1+12+32+52+72=1+1+9+25+49=85
- 1+12+22+32+52+72+92=1+1+4+9+25+49+81=170
Skema ini tidak memiliki pemisah apa pun untuk awal dan akhir baris, tetapi itu kemungkinan bisa ditangani dengan pengodean posisi dalam 2D, mirip dengan cara RoPE digunakan untuk mengodekan informasi posisi token teks
Hal di atas tidak sepenuhnya konsisten dengan bukti bahwa performa grid Zener mulai menurun setelah 5x5, karena hanya mengambil ukuran grid ganjil dan melewati 5x5
Sebagai alternatif, kita bisa mengambil semua grid (genap dan ganjil) hingga 5x5
- Pendekatan ini memberikan 55 token: 12+22+32+42+52=55
Jika diasumsikan 3 token per mini tile dan 1 token pemisah di antara setiap tile, kita bisa mencapai 170
- 3×(12+22+32+42+52)+5=170
Ini tidak sepenuhnya memuaskan dari sisi justifikasi numerik, tetapi cukup cocok dengan hasil empiris
Strategi piramida secara intuitif sangat menarik, dan terasa seperti cara yang hampir "jelas" untuk mengodekan informasi spasial pada tingkat zoom yang berbeda
- Ini bisa menjelaskan mengapa performanya bagus pada grid 5x5 ke bawah, tetapi sangat buruk pada 6x6 ke atas
Semua hipotesis tampak sangat dekat untuk menjelaskan segalanya, tetapi menjengkelkan karena angka-angkanya tidak pernah benar-benar pas dengan rapi
- Meskipun begitu, strategi piramida seperti ini adalah penjelasan terbaik yang bisa saya pikirkan

Pengenalan karakter optik (OCR)

Tidak satu pun dari hipotesis di atas menjelaskan bagaimana GPT-4o melakukan OCR
- CLIP pada dasarnya tidak bisa melakukan OCR dengan sangat baik, setidaknya untuk blok teks yang besar
- (Meski begitu, fakta bahwa GPT-4o bisa melakukan OCR sendiri sudah cukup mengejutkan, dan merupakan contoh jelas dari kemampuan emergen)
GPT-4o jelas dapat melakukan OCR berkualitas tinggi
- Ia dapat mentranskripsikan blok teks yang panjang, dan membaca teks tulisan tangan atau teks yang dipindahkan, diputar, diproyeksikan, atau tertutup sebagian
Engine OCR modern sudah melakukan banyak hal untuk merapikan gambar, menemukan bounding box dan strip karakter, lalu menjalankan model pengenalan karakter khusus sepanjang strip tersebut satu karakter atau satu kata pada satu waktu
- Bukan sekadar menggunakan CNN besar
Secara teori, OpenAI mungkin saja benar-benar membangun model yang sebaik itu, tetapi hal itu tidak selaras dengan performa yang relatif lemah pada tugas grid Zener
- Jika ia tidak bisa membaca 36 simbol dalam grid 6x6 yang rapi pada sebuah gambar, maka seharusnya ia juga tidak bisa membaca ratusan karakter teks dengan sempurna
Sebuah teori sederhana untuk menjelaskan ketidaksesuaian ini:
- Saya menduga OpenAI menjalankan alat OCR siap pakai seperti Tesseract (atau alat proprietari canggih), lalu memasukkan teks yang teridentifikasi ke transformer bersama data gambar
- Ini menjelaskan mengapa versi awal mudah bingung oleh teks yang disembunyikan di dalam gambar (karena dari sudut pandang GPT-4o, teks itu adalah bagian dari prompt)
  - Ini sekarang sudah diperbaiki, dan GPT-4o mahir mengabaikan prompt berbahaya yang disembunyikan di dalam gambar
Namun, ini tidak menjelaskan mengapa tidak ada biaya per token untuk teks yang ditemukan dalam gambar
Menariknya, mengirim teks sebagai gambar justru memang lebih efisien
- Gambar 512x512 dengan font kecil tetapi masih terbaca dapat dengan mudah memuat 400-500 token teks, tetapi hanya dikenai biaya 170 token input, yaitu 85 tambahan untuk 'master thumbnail', sehingga totalnya 255 token (jauh lebih sedikit daripada jumlah kata dalam gambar)
Teori ini menjelaskan mengapa ada latensi tambahan saat memproses gambar
- CNN pada dasarnya instan, tetapi OCR pihak ketiga akan memerlukan waktu tambahan
- Dan menariknya (meskipun ini bukan berarti membuktikan sesuatu), lingkungan Python yang digunakan OpenAI code interpreter memang memasang PyTesseract
  - Anda bisa memintanya menjalankan PyTesseract pada gambar yang Anda unggah untuk mendapatkan opini kedua

Kesimpulan

Pada dasarnya, ini adalah banyak spekulasi yang dibangun di atas satu fakta kuat, yaitu bahwa OpenAI menggunakan angka ajaib 170
Namun, tampaknya ada pendekatan yang sepenuhnya masuk akal dan sangat konsisten dengan arsitektur CNN lain seperti YOLO, yaitu cara memetakan tile gambar ke vektor embedding
Karena itu, saya tidak menganggap 170 token sekadar sebagai angka pendekatan yang digunakan untuk menagih perkiraan jumlah komputasi yang dibutuhkan untuk pemrosesan gambar
Saya juga tidak mengira mereka hanya menggabungkan data gambar dan teks dengan menumpuk layer seperti yang dilakukan beberapa model multimodal lain
Saya menduga GPT-4o menggunakan arsitektur CNN yang merupakan gabungan CLIP dan YOLO untuk langsung menanamkan gambar ke ruang vektor semantik transformer, sehingga gambar 512x512 direpresentasikan secara harfiah sebagai 170 vektor embedding
Saat mulai menulis artikel ini, saya yakin telah sepenuhnya memecahkan bahwa 170 token itu diperuntukkan bagi grid 13x13 dan satu token tambahan untuk "impresi gestalt"
- Namun, performa pada tugas Zener mulai menurun setelah 5x5, sehingga teori itu runtuh. Apa pun yang dilakukan secara internal tampaknya jauh lebih kecil daripada 13x13
Meski begitu, analogi dengan YOLO cukup meyakinkan, dan performa pada tugas Zener 5x5 hampir memastikan bahwa memang ada semacam grid yang digunakan
Teori ini juga memiliki banyak daya prediksi di area lain
- Ini menjelaskan bagaimana GPT-4o dapat memproses beberapa gambar dan melakukan tugas seperti membandingkan dua gambar
- Ini menjelaskan mengapa ia bisa melihat beberapa objek dalam gambar yang sama, tetapi kewalahan ketika ada terlalu banyak objek dalam adegan yang kompleks
- Ini menjelaskan mengapa GPT-4o tampak sangat kabur soal posisi absolut dan relatif dari objek individual dalam sebuah adegan, dan mengapa ia tidak dapat menghitung objek dalam gambar secara akurat (ketika sebuah objek melintasi dua sel grid yang berdekatan, kelas yang sama diaktifkan pada keduanya, sehingga tidak jelas apakah itu satu objek atau dua)
Ironisnya, satu-satunya hal yang tidak dapat dijelaskan dengan rapi oleh teori ini adalah pertanyaan yang justru memotivasi penulisan artikel ini sejak awal: mengapa harus 170 token?
- Teori piramida (1x1 + 2x2 + 3x3 + 4x4 + 5x5) adalah penjelasan terbaik yang bisa saya pikirkan, tetapi tetap tidak terlalu rapi
Saya ingin mendengar pandangan dari siapa pun yang memiliki teori yang sedikit lebih cocok (atau pengetahuan nyata, dengan asumsi itu tidak melanggar NDA)

Penutup: trik saluran alfa

Saat mengerjakan proyek ini, saya menemukan bahwa GPT-4o mengabaikan saluran alfa dan karena itu menunjukkan perilaku yang agak berlawanan dengan intuisi
Yang dimaksud dengan "mengabaikan" bukanlah seperti saat editor gambar mengonversi PNG ke JPG lalu menghapus transparansi dengan mengompositkannya ke latar belakang default
- GPT-4o secara harfiah hanya mengambil saluran RGB dan mengabaikan saluran alfa
Hal ini bisa dijelaskan dengan 4 gambar yang disiapkan dengan cermat
- Demi kemudahan, gambar ditampilkan di atas pola kotak-kotak menggunakan HTML dan CSS, sementara gambarnya sendiri memiliki latar belakang datar dan transparan
- Namun setengahnya memiliki latar belakang hitam transparan, dan setengah lainnya memiliki latar belakang putih transparan
Apa itu "hitam transparan" atau "putih transparan"?
- Saat warna RGBA direpresentasikan dengan 4 byte, meskipun alfa 100%, byte RGB tetap ada
- Karena itu, (0, 0, 0, 255) dan (255, 255, 255, 255) dalam arti tertentu adalah warna yang berbeda, tetapi karena keduanya 100% transparan, tidak ada situasi di mana renderer yang benar akan menampilkannya secara berbeda
Jika Anda bertanya kepada GPT-4o apa yang "dilihatnya" dalam 4 gambar ini:
- Teks hitam di atas latar belakang hitam transparan: GPT-4o membacanya sebagai ""
- Teks hitam di atas latar belakang putih transparan: GPT-4o membacanya sebagai "ENORMOUS"
- Teks putih di atas latar belakang hitam transparan: GPT-4o membacanya sebagai "SCINTILLA"
- Teks putih di atas latar belakang putih transparan: GPT-4o membacanya sebagai ""
Jadi apa yang sebenarnya terjadi di sini?
- Terlihat pola bahwa GPT-4o hanya dapat membaca teks ketika warna teks berbeda dari "warna" latar belakang transparannya
- Ini menunjukkan bahwa GPT-4o mengabaikan saluran alfa dan hanya melihat saluran RGB. Bagi GPT-4o, hitam transparan adalah hitam, dan putih transparan adalah putih
Ini bisa dilihat lebih jelas dengan memanipulasi gambar sambil mempertahankan 3 saluran RGB dan mengatur saluran alfa menjadi 100%
- Ini dilakukan menggunakan fungsi Pillow
- Dengan itu, dua gambar di bawah ini dibuat, dengan data RGB yang sama dan hanya saluran alfa yang berbeda
  - Saluran alfa = 255: GPT-4o dapat dengan mudah melihat platipus yang disembunyikan
  - Saluran alfa = 0: GPT-4o melihatnya sebagai gambar yang sepenuhnya transparan
Anda dapat mengunduh gambar hidden_platypus.png dan langsung memasukkannya ke ChatGPT, dan ia akan mendeskripsikannya dengan akurat
- Anda juga bisa melihat bahwa ukuran gambar 39.3KB, sama dengan platypus.png; jika itu benar-benar gambar kosong dan transparan sempurna, ukurannya seharusnya jauh lebih kecil karena kompresi PNG
- Atau Anda bisa menggunakan fungsi di atas untuk mengatur kembali saluran alfa ke 255 dan memulihkan gambar aslinya
Tidak jelas apakah ini bug, tetapi ini jelas perilaku yang mengejutkan, dan terasa seperti sesuatu yang dapat digunakan pengguna jahat untuk menyelundupkan informasi langsung ke GPT-4o tanpa terlihat oleh manusia
Namun GPT-4o jauh lebih baik daripada GPT-4v dalam mendeteksi dan mengabaikan prompt berbahaya yang disembunyikan di dalam gambar
- Di galeri gambar uji GPT-4o yang dibuat dengan utilitas image_tagger, Anda dapat menemukan contoh lain di mana GPT-4o berhasil mendeteksi dan mengabaikan prompt berbahaya yang disembunyikan di dalam gambar
Jadi, meskipun ini bug, belum jelas apakah ini bisa dieksploitasi
Meski begitu, akan terasa kurang mengejutkan jika GPT-4o "melihat" hal yang sama dengan yang dilihat manusia di browser

2 komentar

hi098123 2024-06-10

Jadi, (0, 0, 0, 255) dan (255, 255, 255, 255) dalam arti tertentu adalah warna yang berbeda, tetapi karena keduanya sama-sama 100% transparan, tidak ada situasi di mana perender yang benar akan menampilkannya secara berbeda.

Agar transparan, alpha harus 0 seperti pada (0, 0, 0, 0) dan (255, 255, 255, 0), jadi sepertinya ada salah ketik di isi artikelnya.

xguru 2024-06-10

Komentar Hacker News

Kebutuhan akan alternatif open source modern: Sangat dibutuhkan alternatif open source modern untuk Tesseract yang dibangun di atas teknologi machine learning terbaru. LLM yang saat ini digunakan terlalu kuat dan mahal.
Kemampuan OCR Llava1.6, IntenVL, dan CogVLM2: Model-model ini dapat melakukan OCR hanya dengan tile image embedding dan LLM. Jika hasil OCR dari Tesseract dimasukkan, keandalannya meningkat, tetapi itu tidak wajib.
Pengenalan teks oleh embedding CLIP: Embedding CLIP dapat "membaca" teks jika ukurannya cukup besar. Tiling memungkinkan pembacaan teks kecil.
Rasa ingin tahu dan eksplorasi terbuka: Menyukai rasa ingin tahu dan eksplorasi terbuka tentang bagaimana teknologi ini bekerja. Keterkaitannya dengan teori grup renormalisasi untuk interpretasi model machine learning juga menarik.
Efisiensi mengirim teks sebagai gambar: Mengirim teks sebagai gambar bisa jadi lebih efisien. Dengan font kecil, 400-500 token dapat dengan mudah dimuat dalam gambar 512x512.
Kurangnya dokumentasi OpenAI: Tidak memahami mengapa OpenAI tidak menyediakan dokumentasi yang jelas dan komprehensif. Bagi orang yang menggunakan API, kurangnya dokumentasi ini merupakan hambatan besar.
Kesalahan pemrosesan gambar di GPT-4: Pernah mengalami masalah ketika vision GPT-4 melakukan OCR pada satu gambar yang mewakili beberapa halaman PDF, sehingga isi menjadi terdistorsi. Jika OpenAI memiliki dokumentasi yang jelas, masalah seperti ini mungkin bisa dihindari dengan lebih efektif.
Kualitas tulisan: Menganggap tulisan ini sangat baik. Topiknya dijelaskan dengan mudah dipahami namun tetap mendalam. Untuk bisa menjelaskan sesuatu secara sederhana, topiknya harus benar-benar dipahami.
Kemungkinan penggunaan VQVAE: Ada kemungkinan menggunakan VQVAE untuk membuat kamus token dan mengubah gambar melalui encoder.
Biaya pemetaan gambar-ke-token: Memetakan gambar ke embedding token kemungkinan menghabiskan komputasi dan ruang sekitar 170 kali lebih besar dibanding memetakannya ke token ID.
Kemungkinan tiling 13x13: Tidak bisa dikesampingkan bahwa tiling 13x13 tidak mampu mengenali grid objek 13x13 karena receptive field yang saling tumpang tindih. Piramida resolusi tiling yang tumpang tindih juga mungkin dilakukan.
Metode pengujian performa GPT-4: Cara menguji performa GPT-4 dengan meminta bentuk berwarna dalam grid 7x7 dalam format JSON sangat cerdik.