- Model o3 terbaru menang melawan pemain Geoguessr peringkat Master I
- Peringkat Master I setara dengan kemampuan sekitar 1–2% teratas. Peringkat tertinggi adalah Champion, di kisaran 0,1–0,5%
- Bahkan ketika data GPS EXIF palsu disisipkan ke dalam gambar, model tetap menyimpulkan lokasi sebenarnya dengan akurat hanya dari petunjuk visual
- Model melakukan penalaran dengan pendekatan Chain of Thought (COT) yang menganalisis secara menyeluruh detail seperti bangunan, topografi, marka jalan, bahasa, dan rambu
- Pada beberapa ronde, model memanfaatkan pencarian web, tetapi hasil uji ulang menunjukkan bahwa jawaban yang sama tetap bisa diperoleh tanpa pencarian
- Rata-rata waktu penalaran o3 lebih lama daripada manusia, tetapi tingkat presisinya justru lebih unggul
AI vs manusia: awal duel Geoguessr
- Penulis adalah pemain Geoguessr peringkat Master I, dan bertanding melawan AI dalam 5 ronde dengan format yang mirip permainan sebenarnya
- Di setiap ronde, hanya diberikan 2 gambar Street View, lalu lokasi harus ditebak tanpa metadata
- Penilaian mengikuti format Geoguessr biasa: maksimum 5.000 poin per ronde, dengan total maksimum 25.000 poin
Ringkasan hasil per ronde
- Ronde 1 (Bulgaria): manusia menang dengan tebakan lokasi yang sedikit lebih dekat, tetapi selisih skornya hanya sekitar 100 poin
- Ronde 2 (Austria): o3 mencari alamat domain pada taksi untuk mengetahui nama kota sebenarnya, lalu menebak lokasi jawaban dengan nyaris sempurna dan meraih skor mendekati 5.000 poin
- Ronde 3 (Irlandia): keduanya menunjukkan analisis yang sangat baik, dan o3 sedikit unggul dengan tepat menyimpulkan wilayah Burren berdasarkan marka jalan dan topografi batu kapur
- Ronde 4 (Kolombia): o3 menebak lebih akurat daripada manusia berdasarkan marka jalan, pelat nomor, papan toko, dan topografi, serta menunjukkan hasil luar biasa bahkan tanpa pencarian web
- Ronde 5 (Slovakia): manusia menang dengan tebakan yang sedikit lebih dekat, tetapi tidak mampu mengejar selisih skor keseluruhan
Dengan demikian, o3 berhasil mengidentifikasi kelima negara dengan benar, dan pada dua ronde bahkan menebak ratusan kilometer lebih akurat daripada manusia, menunjukkan presisi yang tinggi.
Eksperimen manipulasi EXIF: AI tidak tertipu
- Untuk pengujian, digunakan gambar yang disisipi data EXIF berisi koordinat GPS yang tidak berkaitan dengan lokasi sebenarnya, tetapi o3 menyadari bahwa informasi tersebut tidak cocok dengan isi gambar dan mengabaikannya
- Bahkan ketika informasi EXIF diberikan dalam bentuk teks, model tetap secara akurat menyimpulkan lokasi yang sama sekali berbeda berdasarkan lingkungan dalam foto
- Hal ini membuktikan bahwa AI tidak sekadar bergantung pada metadata, melainkan menganalisis isi gambar secara mendalam
Perbedaan manusia dan AI
- o3 membutuhkan rata-rata 2–6 menit waktu penalaran per ronde, sedangkan pemain manusia menyelesaikan sebagian besar tebakan dalam 1–2 menit
- AI kadang menghabiskan waktu pada elemen yang kurang penting seperti papan iklan, sedangkan manusia lebih cepat mengenali petunjuk penting dan menentukan prioritas
- Namun, o3 menunjukkan akurasi tinggi dengan menggabungkan secara cermat berbagai informasi visual seperti rambu jalan, pelat nomor, gaya arsitektur, topografi, dan vegetasi
Kesimpulan
- o3 memperoleh jawaban benar bukan lewat tipuan yang hanya mengandalkan EXIF atau pencarian, melainkan berdasarkan kemampuan analisis visual yang nyata
- Model ini menunjukkan permainan yang mendekati atau melampaui tingkat Geoguessr Master I
- Manusia masih unggul dalam kecepatan dan intuisi, tetapi dalam hal akurasi, AI sudah berada pada tingkat yang mengancam
- Ini bukan sekadar demonstrasi teknologi, tetapi contoh posisi terkini AI visual berperforma tinggi yang siap digunakan secara nyata
1 komentar
Komentar Hacker News
Ada stiker bertuliskan
www.taxilinder.atyang menempel pada kendaraan. Melalui pencarian web, bisa diketahui bahwa Taxi Linder GmbH berlokasi di Dornbirn, AustriaPenulis senang orang-orang menganggap topik ini menarik
Berada di level master di GeoGuessr. Level ini jelas mengharuskan tahu apa yang harus dilakukan, tetapi tidak setinggi yang terdengar di judul
Saya memahami bahwa o3 dilatih dengan data multimodal, termasuk data gambar. Tidak tidak masuk akal untuk mengasumsikan bahwa data latihnya mencakup gambar lokasi dan fitur dengan posisi yang akurat
Terlepas dari GeoGuessr, saya berharap teknologi ini suatu hari nanti bisa membantu menyelamatkan anak-anak. Misalnya, bisa membantu ECAP milik FBI
Komentar dari postingan sebelumnya:
Saya mencoba bermain-main dengan o3 minggu ini, dan menariknya model itu lebih banyak mencoba pattern matching. Misalnya, model itu bisa dengan mudah menyimpulkan foto di Eropa dan Amerika Serikat
Mengejutkan. Saya cenderung positif terhadap AI, tetapi dalam kasus ini saya mengira manusia yang akan menang. Saya juga menduga akan ada penggeseran target seperti "itu bukan penalaran yang sesungguhnya"
Secara pribadi, menurut saya ini salah satu aplikasi LLM yang kurang mengesankan. Model itu sudah mengetahui semua tanaman, rambu jalan, dan sebagainya. Saya membayangkan jaringan saraf tradisional juga akan bekerja baik di sini
Ini akan menjadi game changer untuk tugas bergaya OSINT (Bellingcat/Trace an object). Saya penasaran apakah itu sudah mulai terjadi