Media berita membatasi akses Internet Archive karena kekhawatiran scraping AI

(niemanlab.org)

2 poin oleh GN⁺ 2026-02-15 | 1 komentar | Bagikan ke WhatsApp

Sejumlah media besar sedang memblokir atau membatasi akses Internet Archive untuk mencegah pengumpulan data bagi pelatihan AI
The Guardian mengecualikan halaman artikelnya dari API Internet Archive dan Wayback Machine, dan hanya menyisakan beberapa halaman beranda serta topik
The New York Times menambahkan archive.org_bot ke robots.txt sejak akhir 2025 untuk memblokir crawling sepenuhnya
Sebanyak 241 situs berita, termasuk milik Gannett (USA Today Co.), memblokir setidaknya satu bot Internet Archive, dan banyak di antaranya juga memblokir Common Crawl, OpenAI, dan Google AI
Langkah ini merupakan respons terhadap penggunaan data tanpa izin oleh perusahaan AI, sekaligus menyoroti masalah keseimbangan antara pelestarian arsip digital dan akses informasi

Pembatasan akses Internet Archive oleh media besar

The Guardian membatasi akses karena khawatir perusahaan AI dapat mengumpulkan konten melalui Internet Archive
- Mengecualikan halaman artikelnya dari antarmuka URL artikel di API dan Wayback Machine
- Halaman beranda regional dan halaman topik masih dapat diakses melalui Wayback Machine
- Robert Hahn menyebut bahwa “perusahaan AI lebih menyukai basis data terstruktur, dan API Internet Archive bisa menjadi jalur itu”
The Guardian menyatakan tidak melakukan pemblokiran total, dan mengatakan mereka menghormati misi demokratisasi informasi Internet Archive
- Namun, mereka sedang mengevaluasi ulang posisinya dalam proses peninjauan kebijakan pengelolaan bot di masa depan

Respons The New York Times dan Financial Times

The New York Times menambahkan archive.org_bot ke robots.txt dan melakukan “hard block” terhadap crawler Internet Archive
- Mereka menjelaskan bahwa “Wayback Machine memberi pihak ketiga, termasuk perusahaan AI, akses tanpa batas ke konten Times”
Financial Times memblokir semua bot terkait, termasuk OpenAI, Anthropic, Perplexity, dan Internet Archive, untuk melindungi konten berbayar
- Karena sebagian besar artikel FT berada di balik paywall, hanya artikel publik yang tersisa di Wayback Machine

Konflik antara Reddit dan Internet Archive

Reddit memblokir akses Internet Archive pada Agustus 2025
- Alasannya, ada kasus perusahaan AI yang melakukan scraping data Reddit melalui Wayback Machine
- Reddit menjelaskan langkah ini sebagai “pembatasan untuk mencegah aktivitas perusahaan AI yang melanggar kebijakan platform”
Reddit sebelumnya telah menandatangani perjanjian lisensi data untuk pelatihan AI dengan Google

Sikap dan tanggapan Internet Archive

Pendiri Brewster Kahle memperingatkan bahwa jika penerbit membatasi perpustakaan seperti Internet Archive, akses publik terhadap catatan sejarah akan berkurang
Kahle menyatakan di Mastodon bahwa “sebagian koleksi tidak dapat diunduh secara massal, dan kami menggunakan pembatasan kecepatan, pemfilteran, serta layanan keamanan Cloudflare”
Pada Mei 2023, pernah ada kasus sebuah perusahaan AI menyebabkan server Internet Archive kelebihan beban akibat permintaan dalam jumlah besar sehingga layanan sempat terhenti
- Setelah itu, perusahaan tersebut menyampaikan permintaan maaf dan memberikan donasi

Analisis data: status pemblokiran di situs berita global

Nieman Lab menganalisis basis data 1.167 situs berita milik Ben Welsh untuk meneliti status pemblokiran terkait Internet Archive
- 241 situs berita memblokir setidaknya satu bot Internet Archive
- Sebanyak 87% adalah media milik USA Today Co. (Gannett), yang menambahkan archive.org_bot dan ia_archiver-web.archive.org ke robots.txt pada 2025
- Beberapa situs Gannett menampilkan pesan “This URL has been excluded” di Wayback Machine
Gannett menyatakan telah “menerapkan protokol baru untuk mencegah pengumpulan data tanpa izin”, dan melaporkan bahwa selama September 2025 mereka memblokir 75 juta bot AI, dengan 70 juta di antaranya berasal dari OpenAI
Tiga situs di bawah Group Le Monde, termasuk Le Monde dan Le Huffington Post, memblokir ketiga crawler Internet Archive sekaligus

Meluasnya pemblokiran crawler terkait AI

Selain Internet Archive, crawler AI utama seperti Common Crawl, OpenAI, dan Google AI juga semakin banyak diblokir
- Dari 241 situs, 240 memblokir Common Crawl, dan 231 situs memblokir bot OpenAI serta Google AI
Common Crawl dinilai memiliki keterkaitan tinggi dengan pengembangan LLM komersial

Masalah keseimbangan antara pelestarian internet dan akses informasi

Internet Archive adalah proyek pelestarian web paling komprehensif di Amerika Serikat, sementara banyak organisasi berita tidak memiliki kemampuan arsip internal yang memadai
Pada Desember 2025, Poynter dan Internet Archive bersama-sama mengumumkan program pelatihan pelestarian berita lokal
Hahn mengatakan bahwa “Internet Archive dijalankan dengan niat baik, tetapi niat baik itu menimbulkan efek samping ketika disalahgunakan”

1 komentar

GN⁺ 2026-02-15

Komentar Hacker News

Jika media menolak pengarsipan rekam jejak yang independen, menurut saya berita mereka tidak bisa dipercaya
Saya tidak terlalu peduli apakah scraping AI diizinkan atau tidak, tetapi konten harus bisa diarsipkan secara independen oleh pihak luar
- Saya juga berpikir sama. Arsip independen itu penting
- Rasanya tidak ada satu pun sumber berita yang benar-benar bisa dipercaya. Sebagian besar mendorong agenda yang disengaja, dan sekarang bahkan tidak lagi menyembunyikannya
Ada sisi kepatuhan (compliance) dalam masalah ini
Regulasi seperti SOC 2 atau HIPAA mengharuskan adanya audit trail dan penyimpanan bukti
Namun ketika dokumen keamanan atau laporan respons insiden hilang dari web, bukti audit ikut terputus, dan saya pernah melihat perusahaan gagal dalam penilaian sertifikasi karena itu
Pada akhirnya, web yang tidak bisa dilestarikan bukan cuma kerugian budaya, tetapi juga menjadi risiko operasional
- Saya coba mencari contoh, dan hasil pertama saja sudah 404
  Halaman AWS Compliance Reports adalah contoh seperti itu
- Saya sudah beberapa kali menjalani audit SOC di perusahaan finansial besar, dan proses mendefinisikan pekerjaan mana yang kritis (critical) sering memicu benturan keras antar departemen
  Bahkan pekerjaan sekadar merapikan log pun bisa memicu perdebatan soal tingkat kepentingannya
- Pada akhirnya, perusahaan asuransi mungkin akan mulai menuntut penyimpanan salinan kertas dokumen untuk menghindari masalah seperti ini
  Mungkin akan jadi kenyataan setelah beberapa insiden kerugian besar
- Perusahaan seperti Page Vault memang sudah ada untuk mencoba menyelesaikan masalah ini
- Namun ada juga kecurigaan bahwa penulis komentar ini terlihat seperti akun alat AI
  Belakangan makin banyak akun dengan pola seperti ini di HN, jadi cukup mengkhawatirkan
Alih-alih perusahaan AI meng-crawl Internet Archive sekali, mereka kemungkinan akan memakai proxy residensial (residential proxy) untuk meng-crawl tiap situs berulang kali
Pada akhirnya yang dirugikan adalah pengguna biasa yang tidak punya sumber daya untuk mengarsipkan seluruh web
Saya selalu membayangkan web tempat konten di-host ulang berbasis hash — IPFS pernah mencoba ke arah itu, tetapi sayangnya gagal
- Memang benar perusahaan AI meng-scrape halaman yang sama berulang-ulang. Situs pribadi saya juga terus menerima permintaan meski tidak ada perubahan
- IPFS adalah proyek yang memang menargetkan struktur seperti ini
- Trafik proxy dari Vietnam dan Korea membuat server saya kolaps. 3500 request per detik tidak mungkin ditangani
- Perusahaan AI sudah menggunakan jaringan proxy melalui perangkat atau aplikasi yang terinfeksi
- Saya rasa proxy seperti ini tidak akan bertahan lama. Tekanan komersial akan menguranginya
  Namun saya tetap heran, sudah ada Common Crawl tetapi kenapa perusahaan AI masih terus melakukan crawling langsung
Kekhawatiran Brewster soal pelestarian catatan sejarah sangat nyata
Tanpa pengarsipan terpisah, artikel media pada akhirnya juga akan hilang
Misalnya, jika editor Wikipedia sulit mendapatkan tautan artikel Times yang stabil, pada akhirnya itu akan diganti dengan artikel WaPo
Inilah bentuk nyata dari tragedi milik bersama
Saya menjalankan proyek open source bernama Linkwarden
Ini alat untuk membantu tim melestarikan URL secara andal tanpa bergantung pada layanan eksternal
Menyimpan dalam berbagai format seperti snapshot HTML, screenshot, PDF, dan reader view
Ada versi cloud-hosted (linkwarden.app) dan versi self-hosted (repositori GitHub)
- Linkwarden sangat bagus. Jika dipakai bersama ekstensi SingleFile, halaman yang diblokir scraper pun masih bisa disimpan
  Hanya saja dari sisi UX akan bagus kalau ada fitur penanda 'sudah dibaca/diarsipkan'
- Saya penasaran bagaimana integrasinya dengan archive.org. Apakah hanya mengirim URL, atau langsung menyimpan data yang diambil dari klien
Masalah ini juga berdampak pada bidang sains
Kesalahan metadata meningkat, dan mesin pencari ilmiah seperti Google Scholar juga mulai rusak
Tampaknya beberapa penerbit ilmiah besar juga memblokir bot AI
- Selain itu kualitas pencarian Google sendiri juga sudah memburuk. Rasanya cakrawala informasi makin menyempit
- Membuat hasil sains yang didanai publik tidak bisa diakses karena pemblokiran AI adalah pelanggaran terhadap kepentingan publik
- Untungnya masih bisa bertahan berkat PubMed dan operator pencarian yang akurat
Media seperti The Guardian dan NYT sedang memblokir Internet Archive dan Common Crawl
Sekitar 20% situs berita memblokir keduanya
Sebagai contoh, artikel di realtor.com tidak bisa diarsipkan di IA karena error 429
- IA menghentikan pengarsipan saat diminta, tetapi scraper jahat tidak begitu
  Akhirnya pihak yang baik diblokir, sementara yang buruk justru tetap ada
- Ada yang meminta bukti apakah The Guardian benar-benar memblokir IA. Setelah dicek langsung, ternyata tetap berfungsi
- Saya merasa akan bagus jika ada arsip crowdsourcing berbasis ekstensi browser
  Tantangannya adalah bagaimana menyaring halaman yang memuat informasi pribadi
Kesan pertama saya adalah perusahaan berita menjadikan AI sebagai alasan untuk isu hak cipta
- Sebagai pengelola situs web, lebih dari 90% trafik saya adalah bot dan spam
  Setelah perusahaan AI mulai memakai proxy, saya memblokir semua negara yang tidak menjadi target
  Internet telah berubah menjadi ekosistem yang sakit
Saya penasaran apakah perusahaan media akan lebih terbuka terhadap arsip privat untuk riset akademik dan jurnalisme
Jika syaratnya sama sekali tidak boleh dipakai untuk pelatihan model perusahaan, mungkin saja bisa
- Mereka sebenarnya sudah menyediakan arsip berlisensi berbayar untuk perpustakaan. Penyalahgunaan bisa dicegah
- Sebagian besar perusahaan media memiliki kontrak sindikasi konten (syndication)
  Masalahnya, LLM menyerap seluruh rantai nilai tanpa nilai balik apa pun
- Secara internal mereka mungkin punya arsip, tetapi masalahnya adalah akses publik
Saya terpikir ide plugin browser crowdsourcing yang otomatis mengirim halaman yang dilihat pengguna ke arsip
Hanya merekam domain yang diizinkan pengguna, dan jika open source maka kekhawatiran privasi juga berkurang
Bukan crawling otomatis, melainkan hanya mengunggah sebagian tampilan dari pengguna nyata
- SingleFile cukup bagus untuk pengarsipan seperti ini
  Namun situs bisa menyisipkan informasi pengenal pengguna secara tersembunyi, sehingga ada risiko kebocoran privasi
- Masalah lainnya adalah sulit untuk menjamin bahwa data yang dikirim pengguna tidak dimanipulasi
  Sulit memastikan keandalannya jika ingin dipakai sebagai catatan sejarah

Media berita membatasi akses Internet Archive karena kekhawatiran scraping AI

Pembatasan akses Internet Archive oleh media besar

Respons The New York Times dan Financial Times

Konflik antara Reddit dan Internet Archive

Sikap dan tanggapan Internet Archive

Analisis data: status pemblokiran di situs berita global

Meluasnya pemblokiran crawler terkait AI

Masalah keseimbangan antara pelestarian internet dan akses informasi

Bacaan terkait

1 komentar

Komentar Hacker News