- Sejumlah media besar sedang memblokir atau membatasi akses Internet Archive untuk mencegah pengumpulan data bagi pelatihan AI
- The Guardian mengecualikan halaman artikelnya dari API Internet Archive dan Wayback Machine, dan hanya menyisakan beberapa halaman beranda serta topik
- The New York Times menambahkan
archive.org_bot ke robots.txt sejak akhir 2025 untuk memblokir crawling sepenuhnya
- Sebanyak 241 situs berita, termasuk milik Gannett (USA Today Co.), memblokir setidaknya satu bot Internet Archive, dan banyak di antaranya juga memblokir Common Crawl, OpenAI, dan Google AI
- Langkah ini merupakan respons terhadap penggunaan data tanpa izin oleh perusahaan AI, sekaligus menyoroti masalah keseimbangan antara pelestarian arsip digital dan akses informasi
Pembatasan akses Internet Archive oleh media besar
- The Guardian membatasi akses karena khawatir perusahaan AI dapat mengumpulkan konten melalui Internet Archive
- Mengecualikan halaman artikelnya dari antarmuka URL artikel di API dan Wayback Machine
- Halaman beranda regional dan halaman topik masih dapat diakses melalui Wayback Machine
- Robert Hahn menyebut bahwa “perusahaan AI lebih menyukai basis data terstruktur, dan API Internet Archive bisa menjadi jalur itu”
- The Guardian menyatakan tidak melakukan pemblokiran total, dan mengatakan mereka menghormati misi demokratisasi informasi Internet Archive
- Namun, mereka sedang mengevaluasi ulang posisinya dalam proses peninjauan kebijakan pengelolaan bot di masa depan
Respons The New York Times dan Financial Times
- The New York Times menambahkan
archive.org_bot ke robots.txt dan melakukan “hard block” terhadap crawler Internet Archive
- Mereka menjelaskan bahwa “Wayback Machine memberi pihak ketiga, termasuk perusahaan AI, akses tanpa batas ke konten Times”
- Financial Times memblokir semua bot terkait, termasuk OpenAI, Anthropic, Perplexity, dan Internet Archive, untuk melindungi konten berbayar
- Karena sebagian besar artikel FT berada di balik paywall, hanya artikel publik yang tersisa di Wayback Machine
Konflik antara Reddit dan Internet Archive
- Reddit memblokir akses Internet Archive pada Agustus 2025
- Alasannya, ada kasus perusahaan AI yang melakukan scraping data Reddit melalui Wayback Machine
- Reddit menjelaskan langkah ini sebagai “pembatasan untuk mencegah aktivitas perusahaan AI yang melanggar kebijakan platform”
- Reddit sebelumnya telah menandatangani perjanjian lisensi data untuk pelatihan AI dengan Google
Sikap dan tanggapan Internet Archive
- Pendiri Brewster Kahle memperingatkan bahwa jika penerbit membatasi perpustakaan seperti Internet Archive, akses publik terhadap catatan sejarah akan berkurang
- Kahle menyatakan di Mastodon bahwa “sebagian koleksi tidak dapat diunduh secara massal, dan kami menggunakan pembatasan kecepatan, pemfilteran, serta layanan keamanan Cloudflare”
- Pada Mei 2023, pernah ada kasus sebuah perusahaan AI menyebabkan server Internet Archive kelebihan beban akibat permintaan dalam jumlah besar sehingga layanan sempat terhenti
- Setelah itu, perusahaan tersebut menyampaikan permintaan maaf dan memberikan donasi
Analisis data: status pemblokiran di situs berita global
- Nieman Lab menganalisis basis data 1.167 situs berita milik Ben Welsh untuk meneliti status pemblokiran terkait Internet Archive
- 241 situs berita memblokir setidaknya satu bot Internet Archive
- Sebanyak 87% adalah media milik USA Today Co. (Gannett), yang menambahkan
archive.org_bot dan ia_archiver-web.archive.org ke robots.txt pada 2025
- Beberapa situs Gannett menampilkan pesan “This URL has been excluded” di Wayback Machine
- Gannett menyatakan telah “menerapkan protokol baru untuk mencegah pengumpulan data tanpa izin”, dan melaporkan bahwa selama September 2025 mereka memblokir 75 juta bot AI, dengan 70 juta di antaranya berasal dari OpenAI
- Tiga situs di bawah Group Le Monde, termasuk Le Monde dan Le Huffington Post, memblokir ketiga crawler Internet Archive sekaligus
Meluasnya pemblokiran crawler terkait AI
- Selain Internet Archive, crawler AI utama seperti Common Crawl, OpenAI, dan Google AI juga semakin banyak diblokir
- Dari 241 situs, 240 memblokir Common Crawl, dan 231 situs memblokir bot OpenAI serta Google AI
- Common Crawl dinilai memiliki keterkaitan tinggi dengan pengembangan LLM komersial
Masalah keseimbangan antara pelestarian internet dan akses informasi
- Internet Archive adalah proyek pelestarian web paling komprehensif di Amerika Serikat, sementara banyak organisasi berita tidak memiliki kemampuan arsip internal yang memadai
- Pada Desember 2025, Poynter dan Internet Archive bersama-sama mengumumkan program pelatihan pelestarian berita lokal
- Hahn mengatakan bahwa “Internet Archive dijalankan dengan niat baik, tetapi niat baik itu menimbulkan efek samping ketika disalahgunakan”
1 komentar
Komentar Hacker News
Saya tidak terlalu peduli apakah scraping AI diizinkan atau tidak, tetapi konten harus bisa diarsipkan secara independen oleh pihak luar
Regulasi seperti SOC 2 atau HIPAA mengharuskan adanya audit trail dan penyimpanan bukti
Namun ketika dokumen keamanan atau laporan respons insiden hilang dari web, bukti audit ikut terputus, dan saya pernah melihat perusahaan gagal dalam penilaian sertifikasi karena itu
Pada akhirnya, web yang tidak bisa dilestarikan bukan cuma kerugian budaya, tetapi juga menjadi risiko operasional
Halaman AWS Compliance Reports adalah contoh seperti itu
Bahkan pekerjaan sekadar merapikan log pun bisa memicu perdebatan soal tingkat kepentingannya
Mungkin akan jadi kenyataan setelah beberapa insiden kerugian besar
Belakangan makin banyak akun dengan pola seperti ini di HN, jadi cukup mengkhawatirkan
Pada akhirnya yang dirugikan adalah pengguna biasa yang tidak punya sumber daya untuk mengarsipkan seluruh web
Saya selalu membayangkan web tempat konten di-host ulang berbasis hash — IPFS pernah mencoba ke arah itu, tetapi sayangnya gagal
Namun saya tetap heran, sudah ada Common Crawl tetapi kenapa perusahaan AI masih terus melakukan crawling langsung
Tanpa pengarsipan terpisah, artikel media pada akhirnya juga akan hilang
Misalnya, jika editor Wikipedia sulit mendapatkan tautan artikel Times yang stabil, pada akhirnya itu akan diganti dengan artikel WaPo
Inilah bentuk nyata dari tragedi milik bersama
Ini alat untuk membantu tim melestarikan URL secara andal tanpa bergantung pada layanan eksternal
Menyimpan dalam berbagai format seperti snapshot HTML, screenshot, PDF, dan reader view
Ada versi cloud-hosted (linkwarden.app) dan versi self-hosted (repositori GitHub)
Hanya saja dari sisi UX akan bagus kalau ada fitur penanda 'sudah dibaca/diarsipkan'
Kesalahan metadata meningkat, dan mesin pencari ilmiah seperti Google Scholar juga mulai rusak
Tampaknya beberapa penerbit ilmiah besar juga memblokir bot AI
Sekitar 20% situs berita memblokir keduanya
Sebagai contoh, artikel di realtor.com tidak bisa diarsipkan di IA karena error 429
Akhirnya pihak yang baik diblokir, sementara yang buruk justru tetap ada
Tantangannya adalah bagaimana menyaring halaman yang memuat informasi pribadi
Setelah perusahaan AI mulai memakai proxy, saya memblokir semua negara yang tidak menjadi target
Internet telah berubah menjadi ekosistem yang sakit
Jika syaratnya sama sekali tidak boleh dipakai untuk pelatihan model perusahaan, mungkin saja bisa
Masalahnya, LLM menyerap seluruh rantai nilai tanpa nilai balik apa pun
Hanya merekam domain yang diizinkan pengguna, dan jika open source maka kekhawatiran privasi juga berkurang
Bukan crawling otomatis, melainkan hanya mengunggah sebagian tampilan dari pengguna nyata
Namun situs bisa menyisipkan informasi pengenal pengguna secara tersembunyi, sehingga ada risiko kebocoran privasi
Sulit memastikan keandalannya jika ingin dipakai sebagai catatan sejarah