2 poin oleh GN⁺ 2024-07-31 | 1 komentar | Bagikan ke WhatsApp

Pengenalan en.osm.town

  • en.osm.town adalah bagian dari jaringan sosial terdesentralisasi berbasis Mastodon
  • Merupakan komunitas independen dari komunitas OpenStreetMap, dan didanai oleh OpenStreetMap Foundation
  • Statistik server: 257 pengguna aktif

Poin utama

  • Grant Slater mengusulkan kepada perusahaan AI agar tidak diam-diam melakukan scraping data OpenStreetMap dan sebagai gantinya menyumbang $10.000
  • Jika menyumbang $50.000, pembaruan streaming real-time juga bisa disediakan
  • Bart Louwers menyebut bahwa scraping OpenStreetMap adalah hal yang umum terjadi
  • wikiyu berpendapat bahwa menggunakan data planet.osm lebih efisien
  • Josua mengkritik bahwa AI sedang dilatih dengan cara yang tidak efisien
  • Juan Luis menyebut bahwa di Read the Docs juga terjadi masalah serupa terkait penyalahgunaan crawler AI
  • Simon Poole berpendapat bahwa pendekatan yang masuk akal justru dapat merusak citra perusahaan AI
  • Michał mengemukakan kemungkinan bahwa kontraktor dari negara tertentu diberi tugas untuk mengunduh data OSM
  • leadingzero mengkritik bahwa persyaratan lisensi OSM tidak ditegakkan dengan semestinya
  • Grant Slater menyebut bahwa ia telah membuat repositori GitHub untuk melacak atribut tile
  • Guillaume Rischard menyebut bahwa baru-baru ini ia menyelesaikan persoalan hukum di Jerman
  • Adderall girl grindset (Jes) mengusulkan agar crawler AI diblokir

Ringkasan GN⁺

  • Artikel ini membahas masalah perusahaan AI yang melakukan scraping data OpenStreetMap
  • Diusulkan cara yang lebih efisien untuk menggunakan data OpenStreetMap serta pendekatan akses data melalui donasi
  • Dibahas pula masalah penyalahgunaan crawler AI dan langkah-langkah penanganannya
  • Proyek dengan fungsi serupa antara lain Google Maps dan Bing Maps

1 komentar

 
GN⁺ 2024-07-31
Pendapat Hacker News
  • Crawler AI mengabaikan robots.txt, tidak menggunakan API publik, dan tidak mematuhi beban puncak sehingga biaya infrastruktur meningkat
  • Ketua OpenStreetMap Foundation menyatakan bahwa data OpenStreetMap dapat diunduh gratis dalam jumlah besar, dan menyarankan untuk menggunakannya alih-alih scraping
    • Scraping memberi beban tinggi pada sumber daya yang disumbangkan, dan memblokir IP scraping juga memerlukan waktu serta upaya
    • Menghormati sumber daya dan waktu membantu menjaga layanan tetap gratis
  • Instance OpenStreetMap dapat disiapkan dalam 10 menit, dan ini bisa dilakukan hanya dengan perintah docker run sederhana
    • Pengindeksan memang memerlukan waktu, tetapi itu tidak terlalu lama dibandingkan sumber daya yang dibutuhkan
  • Ada yang membutuhkan data OSM, tetapi tidak benar-benar memahami cara mendapatkannya dengan tepat
    • Harus mengunduh file besar berukuran 100GB, lalu menggunakan format dan pustaka yang tidak jelas
    • Informasinya tersebar, dan HTTP API terbatas atau memiliki pembatasan laju
    • Pada akhirnya, ia menggunakan proyek gratis yang menyediakan data OSM yang sudah dikonversi sebelumnya
  • OP membatasi dan memblokir crawler yang secara agresif melakukan scraping terhadap situs web dan mapping API, lalu memberi tanggapan bernada sarkastik
    • Data OpenStreetMap dapat diunduh gratis, dan tersedia melalui AWS S3 serta torrent
    • Jika baru memulai, sebaiknya gunakan data ekstrak wilayah kecil
  • Jika planet.osm diunggah ke torrent dan scraping hanya diizinkan melalui torrent, beban jaringan bisa didistribusikan
  • Crawler AI yang meminta setiap revisi dari semua file melalui antarmuka web itu tidak efisien
    • Hal itu memboroskan listrik dan sumber daya
  • Ada usulan untuk membuat honeypot bagi perusahaan AI yang menghasilkan konten tak bermakna dalam loop tak berujung
  • Disayangkan proyek seperti CommonCrawl belum mampu menghilangkan kebutuhan berbagai perusahaan untuk melakukan scraping ke server
    • Ini mungkin karena mereka ingin lebih sering berkunjung, atau karena mereka menghabiskan banyak dana VC untuk mengesankan investor
  • Ada pertanyaan tentang apa yang sebenarnya di-scrape perusahaan AI dari OSM