Tebakan lokasi foto oleh o3 terasa surealis, distopis, dan menyenangkan

(simonwillison.net)

6 poin oleh GN⁺ 2025-04-27 | 2 komentar | Bagikan ke WhatsApp

Model baru OpenAI, o3 memiliki kemampuan menebak lokasi pengambilan foto dengan akurasi yang sangat mengejutkan hanya dari fotonya
Menunjukkan proses menganalisis petunjuk visual dalam foto, lalu menarik lebih banyak detail melalui pembesaran dan pemotongan gambar
Awalnya menebak Cambria, California, tetapi tebakan keduanya yaitu El Granada ternyata tepat
Dengan memanfaatkan Tool-augmented Chain-of-Thought, proses analisis fotonya menunjukkan pola yang sangat inovatif
Menekankan perlunya kewaspadaan terhadap dua sisi teknologi, sekaligus menyoroti risiko berbagi foto

Kemampuan luar biasa model o3 dalam menebak lokasi foto

Model o3 dari OpenAI memiliki kemampuan menebak di mana sebuah foto diambil dengan akurasi yang mengejutkan hanya dari melihat fotonya
Pengguna memberikan foto pemandangan jalan biasa tanpa landmark yang jelas, lalu meminta, "Menurutmu foto ini diambil di mana?"
Model sempat salah paham pada awalnya dan mengira tidak bisa melihat gambar, tetapi segera mulai melakukan analisis visual
Model mempersempit lokasi pengambilan dengan menganalisis berbagai petunjuk visual seperti rumah, taman bunga, bukit, dan rambu

Proses analisis foto oleh o3

Model menggunakan metode memotong dan memperbesar foto untuk memeriksa pelat nomor kendaraan
Dengan menggunakan kode Python, model memotong bagian tertentu dari gambar lalu menganalisis hasilnya
Dari desain pelat nomor, model menyimpulkan bahwa lokasinya berada di California, lalu juga menganalisis lingkungan sekitar dan gaya arsitektur
Dari sana, model akhirnya menebak Cambria, California dan mengajukan Half Moon Bay–El Granada sebagai alternatif kedua

Akurasi analisis dan eksperimen tambahan

Lokasi pengambilan sebenarnya adalah El Granada, sehingga tebakan kedua model ternyata benar
Ini menunjukkan bahwa model dapat menyimpulkan lokasi bahkan tanpa menggunakan metadata EXIF
Saat pengguna bereksperimen dengan tangkapan layar yang sudah menghapus informasi EXIF, model tetap mampu melakukan penalaran yang akurat
Model lain seperti Claude 3.5/3.7 Sonnet juga menunjukkan performa yang baik, tetapi tidak mendukung fitur pembesaran seperti o3
Model Gemini kadang menggunakan informasi lokasi secara tidak akurat atau memberikan tebakan yang keliru

Sistem penalaran terhubung alat dan maknanya

o3 mengadopsi pendekatan baru Tool-augmented Chain-of-Thought, di mana ia langsung menggunakan alat yang dibutuhkan saat "sedang berpikir"
Pola ini menunjukkan performa yang kuat bukan hanya untuk analisis foto, tetapi juga untuk beragam tugas lain seperti pencarian
Ke depan, pendekatan serupa diperkirakan akan menyebar ke model AI lainnya

Sisi menyenangkan dan berbahaya dari teknologi

Mengamati proses penalaran model memberikan pengalaman yang sangat menyenangkan dan imersif
Pada saat yang sama, penting juga untuk menyadari bahwa pelacakan lokasi lewat foto kini telah menjadi hal yang umum dimungkinkan
Siapa pun dapat melacak lokasi pribadi hanya dari foto keseharian, sehingga perlu ada kesadaran terhadap isu privasi dan keamanan

Informasi tambahan tentang akses lokasi pada model o3

o3 dapat merujuk pada informasi lokasi perkiraan pengguna, tetapi ini bukan faktor utama dalam penalaran lokasi yang presisi
Bahkan tanpa metadata EXIF, model cukup akurat menganalisis foto dari wilayah yang berjarak ribuan mil
Pengguna lain juga melakukan eksperimen di berbagai lokasi dan kembali mengonfirmasi kemampuan analisis o3

2 komentar

unsure4000 2025-04-27

Bagaimana jika kita memasukkan data palsu ke EXIF?

GN⁺ 2025-04-27

Komentar Hacker News

Saya bermain Geoguessr kompetitif di level tinggi dan ingin menguji model ini
- Sangat mengesankan
- Model ini menebak dengan tepat foto dari daerah tempat saya tinggal, dan menyebut bahwa ia menggunakan informasi bahwa saya tinggal di dekat sana
- Bahkan foto liburan lama ditebak lebih baik daripada pemain manusia profesional
- Mencakup berbagai lokasi di Eropa, Amerika Tengah, dan Amerika Serikat
- Proses mencapai kesimpulannya mirip dengan manusia
- Menganalisis tanaman, topografi, bangunan, infrastruktur jalan, rambu, dan sebagainya
- Manusia juga bisa melakukannya, tetapi butuh ribuan permainan atau pembelajaran mendalam
- Saya menggunakan ratusan flashcard untuk mengingat marka jalan, tiang listrik, bangunan, dan sebagainya
- Model-model ini memiliki lebih banyak informasi daripada yang bisa diingat seseorang
Saya yakin model ini tidak melihat data EXIF
- Jika melihatnya, model itu tidak akan menebak Cambria pada awalnya
- Suatu kali model itu mengatakan sama sekali tidak bisa melihat data gambar
- Pernyataan itu sama sekali tidak bisa dipercaya
- Perlu menghapus data EXIF dan menjalankannya lagi
Pada semua gambar yang saya coba, model dasar menentukan lokasi foto dengan akurasi sekitar 95%
- Pada gambar awal OP, 4o menebak Carmel-by-the-Sea dengan lebih akurat
- Di CoT, Anda bisa melihat lokasi yang hampir tepat pada langkah penalaran pertama
- Model lalu mengabaikannya dan mencoba lokasi lain
- Saat model dasar tidak tahu petunjuknya, o3 tidak bertindak cerdas
- Model ini di-RL-ed agar mengarah ke jawaban benar terlepas dari jumlah penggunaan alat
Saya mencoba hal yang sama dan hasilnya lucu
- Sama sekali tidak tahu petunjuknya
- Saya beberapa kali melihat prompt bahwa itu bukan kota tempat saya berada
- Bagian paling lucu adalah saat mulai menganalisis aspal yang buram
- Setelah 6 menit, o3 salah dengan penuh keyakinan
o3 memodelkan lokasi pengguna secara kasar
- Saya percaya ini untuk mendukung fitur pencarian baru
- Saya menjalankan dua kueri contoh tambahan, dan keduanya menunjukkan hasil yang meyakinkan
Ini mengingatkan pada orang-orang yang kaget melihat iklan tentang hal yang baru saja mereka bicarakan saat menonton YouTubeTV
- Padahal, ML modern sebenarnya bisa menebak relevansi iklan dengan baik menggunakan lokasi, mitra data, dan pencarian terbaru
- Bahkan setelah dijelaskan, masih ada orang yang percaya komputer sedang mendengarkan
Akan ada area di mana tebakan lokasi bisa sangat akurat sampai terasa menyeramkan
- Namun jika melihat proses penalarannya, juga akan ada banyak area yang kurang akurat
- Jika Anda menunjukkan foto trailer park di Kansas, model itu kemungkinan hanya akan menebak sampai tingkat negara bagian
- Jika kiamat robot terjadi, California akan menjadi yang pertama dalam bahaya
Saya yakin model ini tidak melihat data EXIF
- Jika curang dalam tugas semacam ini, model itu akan menyarankan lokasi yang sedikit meleset
- Akan menarik melihat bagaimana performanya pada gambar yang sama setelah data EXIF dihapus
Di hari lain, hasilnya tidak terlalu mengesankan
- Model itu tidak bisa menemukan gambar yang diberikan
- Ia berulang kali melakukan pencarian serupa dengan crop gambar
- Saat menggunakan fitur pembuatan gambar, terlihat bahwa ia memakai database gambar besar sebagai bahan referensi
Saya tidak yakin apakah o4-mini gagal dalam tugas ini
- Model itu tidak bekerja baik pada foto yang saya berikan
- Saya memberinya foto dengan teks 'Sprüngli' di Basel Main Train Station, tetapi model itu menyarankan Zurich
- Foto kedua lebih sulit
- Itu adalah foto interior museum di Metz, dan model itu meleset sejak awal
- Secara keseluruhan, memahami gambar dan bernalar masih tetap keren, tetapi model ini tidak bekerja baik di tempat yang kurang terekspos

Tebakan lokasi foto oleh o3 terasa surealis, distopis, dan menyenangkan

Kemampuan luar biasa model o3 dalam menebak lokasi foto

Proses analisis foto oleh o3

Akurasi analisis dan eksperimen tambahan

Sistem penalaran terhubung alat dan maknanya

Sisi menyenangkan dan berbahaya dari teknologi

Informasi tambahan tentang akses lokasi pada model o3

Bacaan terkait

2 komentar

Komentar Hacker News