- Internet Archive, yang telah melestarikan web dan surat kabar sejak pertengahan 1990-an, menyimpan lebih dari 1 triliun halaman web melalui Wayback Machine
- Baru-baru ini, media besar seperti The New York Times dan The Guardian mulai memblokir crawling arsip tersebut karena kekhawatiran terhadap scraping AI
- Langkah ini bukan sekadar pembatasan teknis, tetapi menyebabkan terputusnya catatan sejarah web
- Dalam banyak kasus, Internet Archive menjadi satu-satunya catatan yang memungkinkan orang memeriksa perubahan sebelum dan sesudah artikel diedit atau dihapus
- Jika perusahaan media memblokir akses, ada risiko rekaman web yang telah terakumulasi selama puluhan tahun akan hilang
- Terlepas dari sengketa hukum terkait pelatihan AI, memblokir lembaga pelestarian nirlaba dianggap sebagai respons yang keliru
- Internet Archive tidak mengembangkan sistem AI komersial, dan menjalankan tujuan kepentingan publik berupa pelestarian sejarah
- Dalam upaya mengendalikan akses AI, hal ini dapat berujung pada rusaknya fungsi perpustakaan dalam melestarikan catatan
Memblokir Internet Archive tidak akan menghentikan AI, tetapi akan menghapus catatan sejarah web
- Internet Archive adalah perpustakaan digital terbesar di dunia yang telah melestarikan web dan surat kabar sejak pertengahan 1990-an, dan menyimpan lebih dari 1 triliun halaman web melalui Wayback Machine
- Dalam beberapa bulan terakhir, The New York Times mulai memblokir crawling arsip tersebut dengan alasan kekhawatiran atas scraping konten AI, dan media lain seperti The Guardian juga menunjukkan langkah serupa
- Pemblokiran ini bukan sekadar batasan teknis, tetapi menyebabkan terputusnya catatan sejarah
- Internet Archive sering kali menjadi satu-satunya catatan yang memungkinkan orang memeriksa perubahan sebelum dan sesudah artikel diedit atau dihapus
- Jika media menutup akses, catatan web yang telah terakumulasi selama puluhan tahun berisiko hilang
- Sengketa hukum soal pelatihan AI memang sedang berlangsung, tetapi memblokir lembaga pelestarian nirlaba dinilai sebagai respons yang salah
- Internet Archive tidak mengembangkan sistem AI komersial, dan menjalankan tujuan publik untuk pelestarian sejarah
- Dalam proses mengendalikan akses AI, hal ini bisa berakibat pada rusaknya fungsi pelestarian catatan oleh perpustakaan
Legalitas pengarsipan dan pencarian
- Tindakan membuat sesuatu dapat dicari telah lama diakui secara hukum sebagai fair use
- Pengadilan menilai bahwa menyalin materi asli tidak dapat dihindari untuk membangun indeks pencarian
- Dalam kasus Google yang menyalin seluruh buku untuk membuat basis data pencarian, hal itu juga diakui sebagai transformative purpose
- Internet Archive juga beroperasi berdasarkan prinsip yang sama
- Seperti perpustakaan fisik yang melestarikan surat kabar, arsip ini melestarikan catatan sejarah web
- Peneliti dan jurnalis menggunakannya setiap hari, dan Wikipedia saja menautkan 2,6 juta artikel berita dalam 249 bahasa ke arsip tersebut
- Tak terhitung blogger, peneliti, dan jurnalis yang bergantung padanya sebagai sumber yang stabil dan tepercaya
-
Prinsip hukum yang melindungi mesin pencari juga harus berlaku sama bagi arsip dan perpustakaan
- Bahkan jika pengadilan membatasi pelatihan AI, legalitas pencarian dan pengarsipan web sudah merupakan hal yang mapan
Krisis pelestarian catatan sejarah
- Internet Archive telah menjaga catatan sejarah web selama sekitar 30 tahun
- Jika media besar mulai memblokirnya, sangat mungkin para peneliti masa depan akan kehilangan rekaman yang sangat besar
- Perdebatan hukum terkait pelatihan AI seharusnya diselesaikan di pengadilan, tetapi diperingatkan bahwa mengorbankan catatan publik adalah kesalahan serius dan tidak dapat dipulihkan
1 komentar
Opini-opini Hacker News
Sebagai operator situs, saya sedang melawan crawler AI yang agresif
Saya khawatir jangan-jangan aturan pemblokiran saya juga memblokir Internet Archive
Facebook mengabaikan robots.txt dan menyebarkan permintaan ke banyak IP untuk melewati crawl delay
Karena itu saya membuat aturan khusus Facebook di nginx
Sejauh ini, pemblokiran hash JA3 adalah yang paling efektif
Tapi saya berharap ada wrapper yang membungkus hugin-net ke nginx untuk fingerprinting TCP
Saya tidak tahu Rust, jadi saya bahkan takut meminta LLM melakukannya
Hanya saja pendekatan ini punya masalah race condition. Pada koneksi pertama tidak ada hash JA4, dan crawler AI hanya meminta sekali per IP, jadi tidak ada kesempatan memblokir permintaan kedua
Dalam postingan blog resmi mereka menyatakan bahwa “masa depan pengarsipan web akan kurang bergantung pada robots.txt”
Organisasi lain, Archiveteam, juga dikatakan mengabaikan robots.txt
Akhir-akhir ini organisasi pengarsipan besar tampaknya hampir tidak mempertimbangkan sudut pandang operator situs
Dengan begitu tampaknya hanya crawler Internet Archive yang bisa diizinkan
Saya penasaran bagaimana pandangan orang-orang yang kini mengakui bahwa scraper AI tidak bisa dihentikan sepenuhnya
Hari ketika perbedaan antara browser manusia dan agen LLM menghilang tampaknya sudah dekat
Mereka bisa membuka sesi GUI nyata, menelusuri halaman dengan browser, lalu mengambil snapshot di level OS untuk merekonstruksi konten
Pada akhirnya, konsep memblokir akses di web publik itu sendiri terasa akan menjadi usang
Kalau begitu, bagaimana cara mengurangi beban pada host individual?
Akankah muncul lembaga pengarsipan terpusat yang tepercaya, atau pendekatan menghukum ‘perilaku buruk’ LLM?
Jika browser mendukung ini, kita bisa mendapatkan efisiensi CDN tanpa sentralisasi
Mungkin model di mana CDN langsung menjual data justru lebih efisien
Saat itu permintaan scraping berkelanjutan akan menurun
Rasanya nalar dasar engineering dan konsep akuntansi sudah dilupakan
Perusahaan media melebih-lebihkan pengaruh konten mereka terhadap perkembangan AI
Bahkan jika mereka tidak ada, kualitas LLM tidak akan jauh berbeda
Pada akhirnya diperlukan teks yang beragam seperti artikel berita
Masuk akal untuk mencari strategi agar perusahaan AI tidak menggunakannya tanpa persetujuan
Kita sekarang seperti membakar perpustakaan demi menghukum pembakar
Si pembakar sudah pergi
Itulah sebabnya archive.is dibuat
Daripada mencoba melacak dan menghukum pendirinya, bukankah lebih baik mendukungnya sebagai proyek yang berguna?
archive.org menerima permintaan penghapusan dari pemilik situs, jadi jika seseorang membeli domain lama, catatan masa lalunya pun bisa dihapus
Karena menyeret pengguna ke dalam serangan, dia bukan sosok yang patut dipuja
Sebagai orang yang dulu membuat sistem antispam, saya rasa ke depan akses situs juga akan punya sistem otentikasi mirip ‘izin taksi’
Misalnya, jika Internet Archive mengirim permintaan HTTPS yang ditandatangani, situs bisa memverifikasi bahwa itu asli
Ini memang bertentangan dengan semangat internet terbuka, tetapi kita butuh cara membedakan crawler yang tepercaya
Berdasarkan informasi ini saya membuat keputusan pemblokiran otomatis
Saya bahkan sudah menulis di blog tentang kebijakan memblokir permintaan Amazon secara default
Saya menganggap The New York Times buruk. Karena itu justru ia harus dilestarikan demi masa depan
Setiap media hanya memuat tulisan yang sesuai dengan ideologinya
EFF bersikap setengah hati terhadap AI
Meski AI merusak internet dan lapangan kerja, mereka tidak mengambil posisi tegas
Jika melihat daftar sponsor, ada banyak sponsor korporat, sehingga kredibilitas mereka sebagai organisasi kebebasan menurun
Organisasi seperti OSI atau EFF sudah ditaklukkan korporasi dan bahkan menjadi merugikan
Jika Internet Archive punya program crawler IP residensial terdistribusi, saya ingin ikut berpartisipasi
Hanya saja perlu mekanisme pencegahan manipulasi
Jika seseorang menjual pupuk dan diesel sekaligus, masuk akal menganggapnya pemasok pertanian
Tetapi jika dia menjual dalam jumlah truk kepada orang yang bukan petani, wajar juga untuk curiga