OpenAI o3 mengabaikan data EXIF palsu dan mengalahkan master Geoguessr

(sampatt.com)

6 poin oleh GN⁺ 2025-04-30 | 1 komentar | Bagikan ke WhatsApp

Model o3 terbaru menang melawan pemain Geoguessr peringkat Master I
- Peringkat Master I setara dengan kemampuan sekitar 1–2% teratas. Peringkat tertinggi adalah Champion, di kisaran 0,1–0,5%
Bahkan ketika data GPS EXIF palsu disisipkan ke dalam gambar, model tetap menyimpulkan lokasi sebenarnya dengan akurat hanya dari petunjuk visual
Model melakukan penalaran dengan pendekatan Chain of Thought (COT) yang menganalisis secara menyeluruh detail seperti bangunan, topografi, marka jalan, bahasa, dan rambu
Pada beberapa ronde, model memanfaatkan pencarian web, tetapi hasil uji ulang menunjukkan bahwa jawaban yang sama tetap bisa diperoleh tanpa pencarian
Rata-rata waktu penalaran o3 lebih lama daripada manusia, tetapi tingkat presisinya justru lebih unggul

AI vs manusia: awal duel Geoguessr

Penulis adalah pemain Geoguessr peringkat Master I, dan bertanding melawan AI dalam 5 ronde dengan format yang mirip permainan sebenarnya
Di setiap ronde, hanya diberikan 2 gambar Street View, lalu lokasi harus ditebak tanpa metadata
Penilaian mengikuti format Geoguessr biasa: maksimum 5.000 poin per ronde, dengan total maksimum 25.000 poin

Ringkasan hasil per ronde

Ronde 1 (Bulgaria): manusia menang dengan tebakan lokasi yang sedikit lebih dekat, tetapi selisih skornya hanya sekitar 100 poin
Ronde 2 (Austria): o3 mencari alamat domain pada taksi untuk mengetahui nama kota sebenarnya, lalu menebak lokasi jawaban dengan nyaris sempurna dan meraih skor mendekati 5.000 poin
Ronde 3 (Irlandia): keduanya menunjukkan analisis yang sangat baik, dan o3 sedikit unggul dengan tepat menyimpulkan wilayah Burren berdasarkan marka jalan dan topografi batu kapur
Ronde 4 (Kolombia): o3 menebak lebih akurat daripada manusia berdasarkan marka jalan, pelat nomor, papan toko, dan topografi, serta menunjukkan hasil luar biasa bahkan tanpa pencarian web
Ronde 5 (Slovakia): manusia menang dengan tebakan yang sedikit lebih dekat, tetapi tidak mampu mengejar selisih skor keseluruhan

Dengan demikian, o3 berhasil mengidentifikasi kelima negara dengan benar, dan pada dua ronde bahkan menebak ratusan kilometer lebih akurat daripada manusia, menunjukkan presisi yang tinggi.

Eksperimen manipulasi EXIF: AI tidak tertipu

Untuk pengujian, digunakan gambar yang disisipi data EXIF berisi koordinat GPS yang tidak berkaitan dengan lokasi sebenarnya, tetapi o3 menyadari bahwa informasi tersebut tidak cocok dengan isi gambar dan mengabaikannya
Bahkan ketika informasi EXIF diberikan dalam bentuk teks, model tetap secara akurat menyimpulkan lokasi yang sama sekali berbeda berdasarkan lingkungan dalam foto
Hal ini membuktikan bahwa AI tidak sekadar bergantung pada metadata, melainkan menganalisis isi gambar secara mendalam

Perbedaan manusia dan AI

o3 membutuhkan rata-rata 2–6 menit waktu penalaran per ronde, sedangkan pemain manusia menyelesaikan sebagian besar tebakan dalam 1–2 menit
AI kadang menghabiskan waktu pada elemen yang kurang penting seperti papan iklan, sedangkan manusia lebih cepat mengenali petunjuk penting dan menentukan prioritas
Namun, o3 menunjukkan akurasi tinggi dengan menggabungkan secara cermat berbagai informasi visual seperti rambu jalan, pelat nomor, gaya arsitektur, topografi, dan vegetasi

Kesimpulan

o3 memperoleh jawaban benar bukan lewat tipuan yang hanya mengandalkan EXIF atau pencarian, melainkan berdasarkan kemampuan analisis visual yang nyata
Model ini menunjukkan permainan yang mendekati atau melampaui tingkat Geoguessr Master I
Manusia masih unggul dalam kecepatan dan intuisi, tetapi dalam hal akurasi, AI sudah berada pada tingkat yang mengancam
Ini bukan sekadar demonstrasi teknologi, tetapi contoh posisi terkini AI visual berperforma tinggi yang siap digunakan secara nyata

1 komentar

GN⁺ 2025-04-30

Komentar Hacker News

Ada stiker bertuliskan www.taxilinder.at yang menempel pada kendaraan. Melalui pencarian web, bisa diketahui bahwa Taxi Linder GmbH berlokasi di Dornbirn, Austria
- Menggunakan pencarian web tidak adil. Dalam ronde GeoGuessr di dalam kota, seseorang bisa mencari beberapa bisnis untuk mendapat skor sempurna, tetapi itu bukan tujuan permainannya
Penulis senang orang-orang menganggap topik ini menarik
- Merekomendasikan semua orang untuk mencoba GeoGuessr. Penulis menyukai game ini
- Banyak yang berpendapat bahwa penggunaan pencarian web oleh model o3 di 2 dari 5 ronde itu tidak adil dan membuat hasilnya tidak valid
- Untuk memverifikasi hal ini, dua ronde yang memakai pencarian dijalankan ulang dan hasilnya diperbarui
- Kesimpulan: hasilnya hampir sama. Koordinat GPS dapat dilihat di postingan
- Memberikan contoh model yang mengidentifikasi kota berdasarkan gunung di latar belakang pada ronde Austria
- Model sudah memiliki banyak informasi, jadi pencarian tidak diperlukan
- Pencarian mungkin berguna dalam beberapa situasi. Namun, dalam kasus ini itu tidak relevan
Berada di level master di GeoGuessr. Level ini jelas mengharuskan tahu apa yang harus dilakukan, tetapi tidak setinggi yang terdengar di judul
- Master sekitar 800-1200 ELO, sedangkan pro sekitar 1900-2000. Dalam 95% ronde bisa langsung tahu negaranya, tetapi di Rusia atau Brasil, tanpa informasi tambahan tidak bisa mengetahui lokasinya. Seorang scripter bisa mengalahkan saya
Saya memahami bahwa o3 dilatih dengan data multimodal, termasuk data gambar. Tidak tidak masuk akal untuk mengasumsikan bahwa data latihnya mencakup gambar lokasi dan fitur dengan posisi yang akurat
- GeoGuessr menggunakan Google Maps, dan Google Maps membeli sebagian besar gambarnya dari pihak ketiga. Akan sangat mengejutkan jika pihak ketiga itu tidak menjualnya ke semua perusahaan AI besar
Terlepas dari GeoGuessr, saya berharap teknologi ini suatu hari nanti bisa membantu menyelamatkan anak-anak. Misalnya, bisa membantu ECAP milik FBI
Komentar dari postingan sebelumnya:
- Mungkin ada area di mana tebakan lokasi bisa sangat akurat sampai terasa menyeramkan. Misalnya, seperti artikel yang menebak desa yang tepat sebagai tebakan cadangan
- Namun, jika melihat alur pikirnya, pasti ada banyak area di mana akurasinya akan lebih rendah. Jika diberi foto trailer park di Kansas, model itu mungkin hanya bisa menebak negara bagiannya
- Postingan ini bukan sampel yang besar, tetapi mencerminkan apa yang diperkirakan tentang cara model-model ini akan bekerja. Bahkan pada foto yang tidak punya banyak informasi visual, model itu cukup andal dalam menebak negaranya
- Artikel sebelumnya hanya menguji satu foto, dan pada tebakan kedua berhasil menebak desa yang tepat; penulis menyebutnya "sangat akurat sampai menyeramkan". Ini soal penilaian
- Tampaknya o3 dengan pencarian web aktif bisa memainkan GeoGuessr di level tinggi. Sekarang saya ingin melihat bot GeoGuessr o3 memainkan banyak pertandingan dan melihat ELO-nya
Saya mencoba bermain-main dengan o3 minggu ini, dan menariknya model itu lebih banyak mencoba pattern matching. Misalnya, model itu bisa dengan mudah menyimpulkan foto di Eropa dan Amerika Serikat
- Namun, di tempat yang tidak punya banyak foto online, model itu mencoba melakukan pattern matching dari basis datanya/internet tanpa menggali lebih dalam
- Contohnya, ada jalur pendakian populer di sebuah pulau yang tumbuh sejak 2020. Awalnya model itu menyebut bebatuan pulau itu dan vegetasi Brasil, tetapi lalu mencoba mencari tempat di Rio de Janeiro
- Contoh lain adalah pantai yang terkenal dengan kolam alami saat air surut. Ketika foto diambil saat pasang, model itu tepat mengenali vegetasi dan negara bagiannya, tetapi kembali mencoba menemukan tempat yang lebih populer
Mengejutkan. Saya cenderung positif terhadap AI, tetapi dalam kasus ini saya mengira manusia yang akan menang. Saya juga menduga akan ada penggeseran target seperti "itu bukan penalaran yang sesungguhnya"
Secara pribadi, menurut saya ini salah satu aplikasi LLM yang kurang mengesankan. Model itu sudah mengetahui semua tanaman, rambu jalan, dan sebagainya. Saya membayangkan jaringan saraf tradisional juga akan bekerja baik di sini
Ini akan menjadi game changer untuk tugas bergaya OSINT (Bellingcat/Trace an object). Saya penasaran apakah itu sudah mulai terjadi
- Bisa saja muncul kompetisi bergaya GeoGuessr, dan ini setidaknya dapat sangat membantu identifikasi massal sebagai co-pilot