Memblokir Internet Archive tidak akan menghentikan AI, tetapi akan menghapus catatan sejarah web

(eff.org)

6 poin oleh GN⁺ 2026-03-22 | 1 komentar | Bagikan ke WhatsApp

Internet Archive, yang telah melestarikan web dan surat kabar sejak pertengahan 1990-an, menyimpan lebih dari 1 triliun halaman web melalui Wayback Machine
Baru-baru ini, media besar seperti The New York Times dan The Guardian mulai memblokir crawling arsip tersebut karena kekhawatiran terhadap scraping AI
Langkah ini bukan sekadar pembatasan teknis, tetapi menyebabkan terputusnya catatan sejarah web
- Dalam banyak kasus, Internet Archive menjadi satu-satunya catatan yang memungkinkan orang memeriksa perubahan sebelum dan sesudah artikel diedit atau dihapus
- Jika perusahaan media memblokir akses, ada risiko rekaman web yang telah terakumulasi selama puluhan tahun akan hilang
Terlepas dari sengketa hukum terkait pelatihan AI, memblokir lembaga pelestarian nirlaba dianggap sebagai respons yang keliru
- Internet Archive tidak mengembangkan sistem AI komersial, dan menjalankan tujuan kepentingan publik berupa pelestarian sejarah
- Dalam upaya mengendalikan akses AI, hal ini dapat berujung pada rusaknya fungsi perpustakaan dalam melestarikan catatan

Memblokir Internet Archive tidak akan menghentikan AI, tetapi akan menghapus catatan sejarah web

Internet Archive adalah perpustakaan digital terbesar di dunia yang telah melestarikan web dan surat kabar sejak pertengahan 1990-an, dan menyimpan lebih dari 1 triliun halaman web melalui Wayback Machine
Dalam beberapa bulan terakhir, The New York Times mulai memblokir crawling arsip tersebut dengan alasan kekhawatiran atas scraping konten AI, dan media lain seperti The Guardian juga menunjukkan langkah serupa
Pemblokiran ini bukan sekadar batasan teknis, tetapi menyebabkan terputusnya catatan sejarah
- Internet Archive sering kali menjadi satu-satunya catatan yang memungkinkan orang memeriksa perubahan sebelum dan sesudah artikel diedit atau dihapus
- Jika media menutup akses, catatan web yang telah terakumulasi selama puluhan tahun berisiko hilang
Sengketa hukum soal pelatihan AI memang sedang berlangsung, tetapi memblokir lembaga pelestarian nirlaba dinilai sebagai respons yang salah
- Internet Archive tidak mengembangkan sistem AI komersial, dan menjalankan tujuan publik untuk pelestarian sejarah
- Dalam proses mengendalikan akses AI, hal ini bisa berakibat pada rusaknya fungsi pelestarian catatan oleh perpustakaan

Legalitas pengarsipan dan pencarian

Tindakan membuat sesuatu dapat dicari telah lama diakui secara hukum sebagai fair use
- Pengadilan menilai bahwa menyalin materi asli tidak dapat dihindari untuk membangun indeks pencarian
- Dalam kasus Google yang menyalin seluruh buku untuk membuat basis data pencarian, hal itu juga diakui sebagai transformative purpose
Internet Archive juga beroperasi berdasarkan prinsip yang sama
- Seperti perpustakaan fisik yang melestarikan surat kabar, arsip ini melestarikan catatan sejarah web
- Peneliti dan jurnalis menggunakannya setiap hari, dan Wikipedia saja menautkan 2,6 juta artikel berita dalam 249 bahasa ke arsip tersebut
- Tak terhitung blogger, peneliti, dan jurnalis yang bergantung padanya sebagai sumber yang stabil dan tepercaya
Prinsip hukum yang melindungi mesin pencari juga harus berlaku sama bagi arsip dan perpustakaan
- Bahkan jika pengadilan membatasi pelatihan AI, legalitas pencarian dan pengarsipan web sudah merupakan hal yang mapan

Krisis pelestarian catatan sejarah

Internet Archive telah menjaga catatan sejarah web selama sekitar 30 tahun
Jika media besar mulai memblokirnya, sangat mungkin para peneliti masa depan akan kehilangan rekaman yang sangat besar
Perdebatan hukum terkait pelatihan AI seharusnya diselesaikan di pengadilan, tetapi diperingatkan bahwa mengorbankan catatan publik adalah kesalahan serius dan tidak dapat dipulihkan

1 komentar

GN⁺ 2026-03-22

Opini-opini Hacker News

Sebagai operator situs, saya sedang melawan crawler AI yang agresif
Saya khawatir jangan-jangan aturan pemblokiran saya juga memblokir Internet Archive
Facebook mengabaikan robots.txt dan menyebarkan permintaan ke banyak IP untuk melewati crawl delay
Karena itu saya membuat aturan khusus Facebook di nginx
Sejauh ini, pemblokiran hash JA3 adalah yang paling efektif
Tapi saya berharap ada wrapper yang membungkus hugin-net ke nginx untuk fingerprinting TCP
Saya tidak tahu Rust, jadi saya bahkan takut meminta LLM melakukannya
Hanya saja pendekatan ini punya masalah race condition. Pada koneksi pertama tidak ada hash JA4, dan crawler AI hanya meminta sekali per IP, jadi tidak ada kesempatan memblokir permintaan kedua
- Internet Archive juga tidak mematuhi robots.txt
  Dalam postingan blog resmi mereka menyatakan bahwa “masa depan pengarsipan web akan kurang bergantung pada robots.txt”
  Organisasi lain, Archiveteam, juga dikatakan mengabaikan robots.txt
  Akhir-akhir ini organisasi pengarsipan besar tampaknya hampir tidak mempertimbangkan sudut pandang operator situs
- Teknik penghindaran seperti pengacakan atau penyamaran JA3 mudah melewati deteksi
- Saya penasaran apakah mungkin ada mekanisme bypass pemblokiran bot yang hanya meloloskan permintaan yang ditandatangani dengan kunci whitelist
  Dengan begitu tampaknya hanya crawler Internet Archive yang bisa diizinkan
Saya penasaran bagaimana pandangan orang-orang yang kini mengakui bahwa scraper AI tidak bisa dihentikan sepenuhnya
Hari ketika perbedaan antara browser manusia dan agen LLM menghilang tampaknya sudah dekat
Mereka bisa membuka sesi GUI nyata, menelusuri halaman dengan browser, lalu mengambil snapshot di level OS untuk merekonstruksi konten
Pada akhirnya, konsep memblokir akses di web publik itu sendiri terasa akan menjadi usang
Kalau begitu, bagaimana cara mengurangi beban pada host individual?
Akankah muncul lembaga pengarsipan terpusat yang tepercaya, atau pendekatan menghukum ‘perilaku buruk’ LLM?
- Kita seharusnya sudah belajar bahwa hukum internet hampir tidak punya daya penegakan nyata
- Jika menyediakan hash konten dan membiarkan data sebenarnya diambil dari tempat seperti IPFS atau BitTorrent, beban situs bisa berkurang
  Jika browser mendukung ini, kita bisa mendapatkan efisiensi CDN tanpa sentralisasi
- Kalau tidak mempublikasikannya di web publik, kekhawatiran soal scraping lenyap
  Mungkin model di mana CDN langsung menjual data justru lebih efisien
- Saat ini ribuan perusahaan AI sedang mengeruk seluruh web, tetapi ketika gelembung AI pecah, pada akhirnya hanya beberapa yang akan tersisa
  Saat itu permintaan scraping berkelanjutan akan menurun
- Masalah sebenarnya adalah beban trafik dan biaya bandwidth
  Rasanya nalar dasar engineering dan konsep akuntansi sudah dilupakan
Perusahaan media melebih-lebihkan pengaruh konten mereka terhadap perkembangan AI
Bahkan jika mereka tidak ada, kualitas LLM tidak akan jauh berbeda
- Hanya dengan Wikipedia, Reddit, dan makalah ilmiah ada batasnya
  Pada akhirnya diperlukan teks yang beragam seperti artikel berita
- Semakin web dipenuhi hasil buatan AI, semakin tinggi nilai teks yang ditulis manusia
  Masuk akal untuk mencari strategi agar perusahaan AI tidak menggunakannya tanpa persetujuan
Kita sekarang seperti membakar perpustakaan demi menghukum pembakar
Si pembakar sudah pergi
- Tapi kenyataannya mungkin 90% pengunjung perpustakaan adalah para pembakar
Itulah sebabnya archive.is dibuat
Daripada mencoba melacak dan menghukum pendirinya, bukankah lebih baik mendukungnya sebagai proyek yang berguna?
- Setuju. Jika archive.is hilang, archive.org akan menjadi monopoli
  archive.org menerima permintaan penghapusan dari pemilik situs, jadi jika seseorang membeli domain lama, catatan masa lalunya pun bisa dihapus
- Tapi pendiri archive.is punya riwayat menyerang jurnalis dengan DDoS
  Karena menyeret pengguna ke dalam serangan, dia bukan sosok yang patut dipuja
Sebagai orang yang dulu membuat sistem antispam, saya rasa ke depan akses situs juga akan punya sistem otentikasi mirip ‘izin taksi’
Misalnya, jika Internet Archive mengirim permintaan HTTPS yang ditandatangani, situs bisa memverifikasi bahwa itu asli
Ini memang bertentangan dengan semangat internet terbuka, tetapi kita butuh cara membedakan crawler yang tepercaya
- Saya meminta hal-hal berikut dari crawler yang tidak terlihat seperti manusia
  - Harus ada reverse DNS, dan domain itu punya halaman kebijakan perilaku
  - Harus ada record TXT berbasis IP yang menjelaskan siapa yang mengakses, kapan, dan seberapa sering
    Berdasarkan informasi ini saya membuat keputusan pemblokiran otomatis
    Saya bahkan sudah menulis di blog tentang kebijakan memblokir permintaan Amazon secara default
Saya menganggap The New York Times buruk. Karena itu justru ia harus dilestarikan demi masa depan
- Semua artikel opini media pada akhirnya adalah propaganda
  Setiap media hanya memuat tulisan yang sesuai dengan ideologinya
- Saya penasaran kenapa Anda menganggapnya seburuk itu. Saya tidak membacanya
EFF bersikap setengah hati terhadap AI
Meski AI merusak internet dan lapangan kerja, mereka tidak mengambil posisi tegas
Jika melihat daftar sponsor, ada banyak sponsor korporat, sehingga kredibilitas mereka sebagai organisasi kebebasan menurun
Organisasi seperti OSI atau EFF sudah ditaklukkan korporasi dan bahkan menjadi merugikan
Jika Internet Archive punya program crawler IP residensial terdistribusi, saya ingin ikut berpartisipasi
Hanya saja perlu mekanisme pencegahan manipulasi
- Internet Archive tidak punya, tetapi ada Archive Team Warrior
- IA menangani segalanya secara terbuka, dan bahkan menghormati permintaan DMCA yang tidak layak
- Jika TLS diakhiri di pihak mereka, itu sederhana. Pada akhirnya akan berfungsi sebagai proxy residensial
Jika seseorang menjual pupuk dan diesel sekaligus, masuk akal menganggapnya pemasok pertanian
Tetapi jika dia menjual dalam jumlah truk kepada orang yang bukan petani, wajar juga untuk curiga

Memblokir Internet Archive tidak akan menghentikan AI, tetapi akan menghapus catatan sejarah web

Memblokir Internet Archive tidak akan menghentikan AI, tetapi akan menghapus catatan sejarah web

Legalitas pengarsipan dan pencarian

Prinsip hukum yang melindungi mesin pencari juga harus berlaku sama bagi arsip dan perpustakaan

Krisis pelestarian catatan sejarah

Bacaan terkait

1 komentar

Opini-opini Hacker News