6 poin oleh GN⁺ 2025-04-27 | 2 komentar | Bagikan ke WhatsApp
  • Model baru OpenAI, o3 memiliki kemampuan menebak lokasi pengambilan foto dengan akurasi yang sangat mengejutkan hanya dari fotonya
  • Menunjukkan proses menganalisis petunjuk visual dalam foto, lalu menarik lebih banyak detail melalui pembesaran dan pemotongan gambar
  • Awalnya menebak Cambria, California, tetapi tebakan keduanya yaitu El Granada ternyata tepat
  • Dengan memanfaatkan Tool-augmented Chain-of-Thought, proses analisis fotonya menunjukkan pola yang sangat inovatif
  • Menekankan perlunya kewaspadaan terhadap dua sisi teknologi, sekaligus menyoroti risiko berbagi foto

Kemampuan luar biasa model o3 dalam menebak lokasi foto

  • Model o3 dari OpenAI memiliki kemampuan menebak di mana sebuah foto diambil dengan akurasi yang mengejutkan hanya dari melihat fotonya
  • Pengguna memberikan foto pemandangan jalan biasa tanpa landmark yang jelas, lalu meminta, "Menurutmu foto ini diambil di mana?"
  • Model sempat salah paham pada awalnya dan mengira tidak bisa melihat gambar, tetapi segera mulai melakukan analisis visual
  • Model mempersempit lokasi pengambilan dengan menganalisis berbagai petunjuk visual seperti rumah, taman bunga, bukit, dan rambu

Proses analisis foto oleh o3

  • Model menggunakan metode memotong dan memperbesar foto untuk memeriksa pelat nomor kendaraan
  • Dengan menggunakan kode Python, model memotong bagian tertentu dari gambar lalu menganalisis hasilnya
  • Dari desain pelat nomor, model menyimpulkan bahwa lokasinya berada di California, lalu juga menganalisis lingkungan sekitar dan gaya arsitektur
  • Dari sana, model akhirnya menebak Cambria, California dan mengajukan Half Moon Bay–El Granada sebagai alternatif kedua

Akurasi analisis dan eksperimen tambahan

  • Lokasi pengambilan sebenarnya adalah El Granada, sehingga tebakan kedua model ternyata benar
  • Ini menunjukkan bahwa model dapat menyimpulkan lokasi bahkan tanpa menggunakan metadata EXIF
  • Saat pengguna bereksperimen dengan tangkapan layar yang sudah menghapus informasi EXIF, model tetap mampu melakukan penalaran yang akurat
  • Model lain seperti Claude 3.5/3.7 Sonnet juga menunjukkan performa yang baik, tetapi tidak mendukung fitur pembesaran seperti o3
  • Model Gemini kadang menggunakan informasi lokasi secara tidak akurat atau memberikan tebakan yang keliru

Sistem penalaran terhubung alat dan maknanya

  • o3 mengadopsi pendekatan baru Tool-augmented Chain-of-Thought, di mana ia langsung menggunakan alat yang dibutuhkan saat "sedang berpikir"
  • Pola ini menunjukkan performa yang kuat bukan hanya untuk analisis foto, tetapi juga untuk beragam tugas lain seperti pencarian
  • Ke depan, pendekatan serupa diperkirakan akan menyebar ke model AI lainnya

Sisi menyenangkan dan berbahaya dari teknologi

  • Mengamati proses penalaran model memberikan pengalaman yang sangat menyenangkan dan imersif
  • Pada saat yang sama, penting juga untuk menyadari bahwa pelacakan lokasi lewat foto kini telah menjadi hal yang umum dimungkinkan
  • Siapa pun dapat melacak lokasi pribadi hanya dari foto keseharian, sehingga perlu ada kesadaran terhadap isu privasi dan keamanan

Informasi tambahan tentang akses lokasi pada model o3

  • o3 dapat merujuk pada informasi lokasi perkiraan pengguna, tetapi ini bukan faktor utama dalam penalaran lokasi yang presisi
  • Bahkan tanpa metadata EXIF, model cukup akurat menganalisis foto dari wilayah yang berjarak ribuan mil
  • Pengguna lain juga melakukan eksperimen di berbagai lokasi dan kembali mengonfirmasi kemampuan analisis o3

2 komentar

 
unsure4000 2025-04-27

Bagaimana jika kita memasukkan data palsu ke EXIF?

 
GN⁺ 2025-04-27
Komentar Hacker News
  • Saya bermain Geoguessr kompetitif di level tinggi dan ingin menguji model ini

    • Sangat mengesankan
    • Model ini menebak dengan tepat foto dari daerah tempat saya tinggal, dan menyebut bahwa ia menggunakan informasi bahwa saya tinggal di dekat sana
    • Bahkan foto liburan lama ditebak lebih baik daripada pemain manusia profesional
    • Mencakup berbagai lokasi di Eropa, Amerika Tengah, dan Amerika Serikat
    • Proses mencapai kesimpulannya mirip dengan manusia
    • Menganalisis tanaman, topografi, bangunan, infrastruktur jalan, rambu, dan sebagainya
    • Manusia juga bisa melakukannya, tetapi butuh ribuan permainan atau pembelajaran mendalam
    • Saya menggunakan ratusan flashcard untuk mengingat marka jalan, tiang listrik, bangunan, dan sebagainya
    • Model-model ini memiliki lebih banyak informasi daripada yang bisa diingat seseorang
  • Saya yakin model ini tidak melihat data EXIF

    • Jika melihatnya, model itu tidak akan menebak Cambria pada awalnya
    • Suatu kali model itu mengatakan sama sekali tidak bisa melihat data gambar
    • Pernyataan itu sama sekali tidak bisa dipercaya
    • Perlu menghapus data EXIF dan menjalankannya lagi
  • Pada semua gambar yang saya coba, model dasar menentukan lokasi foto dengan akurasi sekitar 95%

    • Pada gambar awal OP, 4o menebak Carmel-by-the-Sea dengan lebih akurat
    • Di CoT, Anda bisa melihat lokasi yang hampir tepat pada langkah penalaran pertama
    • Model lalu mengabaikannya dan mencoba lokasi lain
    • Saat model dasar tidak tahu petunjuknya, o3 tidak bertindak cerdas
    • Model ini di-RL-ed agar mengarah ke jawaban benar terlepas dari jumlah penggunaan alat
  • Saya mencoba hal yang sama dan hasilnya lucu

    • Sama sekali tidak tahu petunjuknya
    • Saya beberapa kali melihat prompt bahwa itu bukan kota tempat saya berada
    • Bagian paling lucu adalah saat mulai menganalisis aspal yang buram
    • Setelah 6 menit, o3 salah dengan penuh keyakinan
  • o3 memodelkan lokasi pengguna secara kasar

    • Saya percaya ini untuk mendukung fitur pencarian baru
    • Saya menjalankan dua kueri contoh tambahan, dan keduanya menunjukkan hasil yang meyakinkan
  • Ini mengingatkan pada orang-orang yang kaget melihat iklan tentang hal yang baru saja mereka bicarakan saat menonton YouTubeTV

    • Padahal, ML modern sebenarnya bisa menebak relevansi iklan dengan baik menggunakan lokasi, mitra data, dan pencarian terbaru
    • Bahkan setelah dijelaskan, masih ada orang yang percaya komputer sedang mendengarkan
  • Akan ada area di mana tebakan lokasi bisa sangat akurat sampai terasa menyeramkan

    • Namun jika melihat proses penalarannya, juga akan ada banyak area yang kurang akurat
    • Jika Anda menunjukkan foto trailer park di Kansas, model itu kemungkinan hanya akan menebak sampai tingkat negara bagian
    • Jika kiamat robot terjadi, California akan menjadi yang pertama dalam bahaya
  • Saya yakin model ini tidak melihat data EXIF

    • Jika curang dalam tugas semacam ini, model itu akan menyarankan lokasi yang sedikit meleset
    • Akan menarik melihat bagaimana performanya pada gambar yang sama setelah data EXIF dihapus
  • Di hari lain, hasilnya tidak terlalu mengesankan

    • Model itu tidak bisa menemukan gambar yang diberikan
    • Ia berulang kali melakukan pencarian serupa dengan crop gambar
    • Saat menggunakan fitur pembuatan gambar, terlihat bahwa ia memakai database gambar besar sebagai bahan referensi
  • Saya tidak yakin apakah o4-mini gagal dalam tugas ini

    • Model itu tidak bekerja baik pada foto yang saya berikan
    • Saya memberinya foto dengan teks 'Sprüngli' di Basel Main Train Station, tetapi model itu menyarankan Zurich
    • Foto kedua lebih sulit
    • Itu adalah foto interior museum di Metz, dan model itu meleset sejak awal
    • Secara keseluruhan, memahami gambar dan bernalar masih tetap keren, tetapi model ini tidak bekerja baik di tempat yang kurang terekspos