2 poin oleh GN⁺ 2026-02-15 | 1 komentar | Bagikan ke WhatsApp
  • Sejumlah media besar sedang memblokir atau membatasi akses Internet Archive untuk mencegah pengumpulan data bagi pelatihan AI
  • The Guardian mengecualikan halaman artikelnya dari API Internet Archive dan Wayback Machine, dan hanya menyisakan beberapa halaman beranda serta topik
  • The New York Times menambahkan archive.org_bot ke robots.txt sejak akhir 2025 untuk memblokir crawling sepenuhnya
  • Sebanyak 241 situs berita, termasuk milik Gannett (USA Today Co.), memblokir setidaknya satu bot Internet Archive, dan banyak di antaranya juga memblokir Common Crawl, OpenAI, dan Google AI
  • Langkah ini merupakan respons terhadap penggunaan data tanpa izin oleh perusahaan AI, sekaligus menyoroti masalah keseimbangan antara pelestarian arsip digital dan akses informasi

Pembatasan akses Internet Archive oleh media besar

  • The Guardian membatasi akses karena khawatir perusahaan AI dapat mengumpulkan konten melalui Internet Archive
    • Mengecualikan halaman artikelnya dari antarmuka URL artikel di API dan Wayback Machine
    • Halaman beranda regional dan halaman topik masih dapat diakses melalui Wayback Machine
    • Robert Hahn menyebut bahwa “perusahaan AI lebih menyukai basis data terstruktur, dan API Internet Archive bisa menjadi jalur itu”
  • The Guardian menyatakan tidak melakukan pemblokiran total, dan mengatakan mereka menghormati misi demokratisasi informasi Internet Archive
    • Namun, mereka sedang mengevaluasi ulang posisinya dalam proses peninjauan kebijakan pengelolaan bot di masa depan

Respons The New York Times dan Financial Times

  • The New York Times menambahkan archive.org_bot ke robots.txt dan melakukan “hard block” terhadap crawler Internet Archive
    • Mereka menjelaskan bahwa “Wayback Machine memberi pihak ketiga, termasuk perusahaan AI, akses tanpa batas ke konten Times”
  • Financial Times memblokir semua bot terkait, termasuk OpenAI, Anthropic, Perplexity, dan Internet Archive, untuk melindungi konten berbayar
    • Karena sebagian besar artikel FT berada di balik paywall, hanya artikel publik yang tersisa di Wayback Machine

Konflik antara Reddit dan Internet Archive

  • Reddit memblokir akses Internet Archive pada Agustus 2025
    • Alasannya, ada kasus perusahaan AI yang melakukan scraping data Reddit melalui Wayback Machine
    • Reddit menjelaskan langkah ini sebagai “pembatasan untuk mencegah aktivitas perusahaan AI yang melanggar kebijakan platform”
  • Reddit sebelumnya telah menandatangani perjanjian lisensi data untuk pelatihan AI dengan Google

Sikap dan tanggapan Internet Archive

  • Pendiri Brewster Kahle memperingatkan bahwa jika penerbit membatasi perpustakaan seperti Internet Archive, akses publik terhadap catatan sejarah akan berkurang
  • Kahle menyatakan di Mastodon bahwa “sebagian koleksi tidak dapat diunduh secara massal, dan kami menggunakan pembatasan kecepatan, pemfilteran, serta layanan keamanan Cloudflare
  • Pada Mei 2023, pernah ada kasus sebuah perusahaan AI menyebabkan server Internet Archive kelebihan beban akibat permintaan dalam jumlah besar sehingga layanan sempat terhenti
    • Setelah itu, perusahaan tersebut menyampaikan permintaan maaf dan memberikan donasi

Analisis data: status pemblokiran di situs berita global

  • Nieman Lab menganalisis basis data 1.167 situs berita milik Ben Welsh untuk meneliti status pemblokiran terkait Internet Archive
    • 241 situs berita memblokir setidaknya satu bot Internet Archive
    • Sebanyak 87% adalah media milik USA Today Co. (Gannett), yang menambahkan archive.org_bot dan ia_archiver-web.archive.org ke robots.txt pada 2025
    • Beberapa situs Gannett menampilkan pesan “This URL has been excluded” di Wayback Machine
  • Gannett menyatakan telah “menerapkan protokol baru untuk mencegah pengumpulan data tanpa izin”, dan melaporkan bahwa selama September 2025 mereka memblokir 75 juta bot AI, dengan 70 juta di antaranya berasal dari OpenAI
  • Tiga situs di bawah Group Le Monde, termasuk Le Monde dan Le Huffington Post, memblokir ketiga crawler Internet Archive sekaligus

Meluasnya pemblokiran crawler terkait AI

  • Selain Internet Archive, crawler AI utama seperti Common Crawl, OpenAI, dan Google AI juga semakin banyak diblokir
    • Dari 241 situs, 240 memblokir Common Crawl, dan 231 situs memblokir bot OpenAI serta Google AI
  • Common Crawl dinilai memiliki keterkaitan tinggi dengan pengembangan LLM komersial

Masalah keseimbangan antara pelestarian internet dan akses informasi

  • Internet Archive adalah proyek pelestarian web paling komprehensif di Amerika Serikat, sementara banyak organisasi berita tidak memiliki kemampuan arsip internal yang memadai
  • Pada Desember 2025, Poynter dan Internet Archive bersama-sama mengumumkan program pelatihan pelestarian berita lokal
  • Hahn mengatakan bahwa “Internet Archive dijalankan dengan niat baik, tetapi niat baik itu menimbulkan efek samping ketika disalahgunakan

1 komentar

 
GN⁺ 2026-02-15
Komentar Hacker News
  • Jika media menolak pengarsipan rekam jejak yang independen, menurut saya berita mereka tidak bisa dipercaya
    Saya tidak terlalu peduli apakah scraping AI diizinkan atau tidak, tetapi konten harus bisa diarsipkan secara independen oleh pihak luar
    • Saya juga berpikir sama. Arsip independen itu penting
    • Rasanya tidak ada satu pun sumber berita yang benar-benar bisa dipercaya. Sebagian besar mendorong agenda yang disengaja, dan sekarang bahkan tidak lagi menyembunyikannya
  • Ada sisi kepatuhan (compliance) dalam masalah ini
    Regulasi seperti SOC 2 atau HIPAA mengharuskan adanya audit trail dan penyimpanan bukti
    Namun ketika dokumen keamanan atau laporan respons insiden hilang dari web, bukti audit ikut terputus, dan saya pernah melihat perusahaan gagal dalam penilaian sertifikasi karena itu
    Pada akhirnya, web yang tidak bisa dilestarikan bukan cuma kerugian budaya, tetapi juga menjadi risiko operasional
    • Saya coba mencari contoh, dan hasil pertama saja sudah 404
      Halaman AWS Compliance Reports adalah contoh seperti itu
    • Saya sudah beberapa kali menjalani audit SOC di perusahaan finansial besar, dan proses mendefinisikan pekerjaan mana yang kritis (critical) sering memicu benturan keras antar departemen
      Bahkan pekerjaan sekadar merapikan log pun bisa memicu perdebatan soal tingkat kepentingannya
    • Pada akhirnya, perusahaan asuransi mungkin akan mulai menuntut penyimpanan salinan kertas dokumen untuk menghindari masalah seperti ini
      Mungkin akan jadi kenyataan setelah beberapa insiden kerugian besar
    • Perusahaan seperti Page Vault memang sudah ada untuk mencoba menyelesaikan masalah ini
    • Namun ada juga kecurigaan bahwa penulis komentar ini terlihat seperti akun alat AI
      Belakangan makin banyak akun dengan pola seperti ini di HN, jadi cukup mengkhawatirkan
  • Alih-alih perusahaan AI meng-crawl Internet Archive sekali, mereka kemungkinan akan memakai proxy residensial (residential proxy) untuk meng-crawl tiap situs berulang kali
    Pada akhirnya yang dirugikan adalah pengguna biasa yang tidak punya sumber daya untuk mengarsipkan seluruh web
    Saya selalu membayangkan web tempat konten di-host ulang berbasis hash — IPFS pernah mencoba ke arah itu, tetapi sayangnya gagal
    • Memang benar perusahaan AI meng-scrape halaman yang sama berulang-ulang. Situs pribadi saya juga terus menerima permintaan meski tidak ada perubahan
    • IPFS adalah proyek yang memang menargetkan struktur seperti ini
    • Trafik proxy dari Vietnam dan Korea membuat server saya kolaps. 3500 request per detik tidak mungkin ditangani
    • Perusahaan AI sudah menggunakan jaringan proxy melalui perangkat atau aplikasi yang terinfeksi
    • Saya rasa proxy seperti ini tidak akan bertahan lama. Tekanan komersial akan menguranginya
      Namun saya tetap heran, sudah ada Common Crawl tetapi kenapa perusahaan AI masih terus melakukan crawling langsung
  • Kekhawatiran Brewster soal pelestarian catatan sejarah sangat nyata
    Tanpa pengarsipan terpisah, artikel media pada akhirnya juga akan hilang
    Misalnya, jika editor Wikipedia sulit mendapatkan tautan artikel Times yang stabil, pada akhirnya itu akan diganti dengan artikel WaPo
    Inilah bentuk nyata dari tragedi milik bersama
  • Saya menjalankan proyek open source bernama Linkwarden
    Ini alat untuk membantu tim melestarikan URL secara andal tanpa bergantung pada layanan eksternal
    Menyimpan dalam berbagai format seperti snapshot HTML, screenshot, PDF, dan reader view
    Ada versi cloud-hosted (linkwarden.app) dan versi self-hosted (repositori GitHub)
    • Linkwarden sangat bagus. Jika dipakai bersama ekstensi SingleFile, halaman yang diblokir scraper pun masih bisa disimpan
      Hanya saja dari sisi UX akan bagus kalau ada fitur penanda 'sudah dibaca/diarsipkan'
    • Saya penasaran bagaimana integrasinya dengan archive.org. Apakah hanya mengirim URL, atau langsung menyimpan data yang diambil dari klien
  • Masalah ini juga berdampak pada bidang sains
    Kesalahan metadata meningkat, dan mesin pencari ilmiah seperti Google Scholar juga mulai rusak
    Tampaknya beberapa penerbit ilmiah besar juga memblokir bot AI
    • Selain itu kualitas pencarian Google sendiri juga sudah memburuk. Rasanya cakrawala informasi makin menyempit
    • Membuat hasil sains yang didanai publik tidak bisa diakses karena pemblokiran AI adalah pelanggaran terhadap kepentingan publik
    • Untungnya masih bisa bertahan berkat PubMed dan operator pencarian yang akurat
  • Media seperti The Guardian dan NYT sedang memblokir Internet Archive dan Common Crawl
    Sekitar 20% situs berita memblokir keduanya
    Sebagai contoh, artikel di realtor.com tidak bisa diarsipkan di IA karena error 429
    • IA menghentikan pengarsipan saat diminta, tetapi scraper jahat tidak begitu
      Akhirnya pihak yang baik diblokir, sementara yang buruk justru tetap ada
    • Ada yang meminta bukti apakah The Guardian benar-benar memblokir IA. Setelah dicek langsung, ternyata tetap berfungsi
    • Saya merasa akan bagus jika ada arsip crowdsourcing berbasis ekstensi browser
      Tantangannya adalah bagaimana menyaring halaman yang memuat informasi pribadi
  • Kesan pertama saya adalah perusahaan berita menjadikan AI sebagai alasan untuk isu hak cipta
    • Sebagai pengelola situs web, lebih dari 90% trafik saya adalah bot dan spam
      Setelah perusahaan AI mulai memakai proxy, saya memblokir semua negara yang tidak menjadi target
      Internet telah berubah menjadi ekosistem yang sakit
  • Saya penasaran apakah perusahaan media akan lebih terbuka terhadap arsip privat untuk riset akademik dan jurnalisme
    Jika syaratnya sama sekali tidak boleh dipakai untuk pelatihan model perusahaan, mungkin saja bisa
    • Mereka sebenarnya sudah menyediakan arsip berlisensi berbayar untuk perpustakaan. Penyalahgunaan bisa dicegah
    • Sebagian besar perusahaan media memiliki kontrak sindikasi konten (syndication)
      Masalahnya, LLM menyerap seluruh rantai nilai tanpa nilai balik apa pun
    • Secara internal mereka mungkin punya arsip, tetapi masalahnya adalah akses publik
  • Saya terpikir ide plugin browser crowdsourcing yang otomatis mengirim halaman yang dilihat pengguna ke arsip
    Hanya merekam domain yang diizinkan pengguna, dan jika open source maka kekhawatiran privasi juga berkurang
    Bukan crawling otomatis, melainkan hanya mengunggah sebagian tampilan dari pengguna nyata
    • SingleFile cukup bagus untuk pengarsipan seperti ini
      Namun situs bisa menyisipkan informasi pengenal pengguna secara tersembunyi, sehingga ada risiko kebocoran privasi
    • Masalah lainnya adalah sulit untuk menjamin bahwa data yang dikirim pengguna tidak dimanipulasi
      Sulit memastikan keandalannya jika ingin dipakai sebagai catatan sejarah