6 poin oleh GN⁺ 2026-03-22 | 1 komentar | Bagikan ke WhatsApp
  • Internet Archive, yang telah melestarikan web dan surat kabar sejak pertengahan 1990-an, menyimpan lebih dari 1 triliun halaman web melalui Wayback Machine
  • Baru-baru ini, media besar seperti The New York Times dan The Guardian mulai memblokir crawling arsip tersebut karena kekhawatiran terhadap scraping AI
  • Langkah ini bukan sekadar pembatasan teknis, tetapi menyebabkan terputusnya catatan sejarah web
    • Dalam banyak kasus, Internet Archive menjadi satu-satunya catatan yang memungkinkan orang memeriksa perubahan sebelum dan sesudah artikel diedit atau dihapus
    • Jika perusahaan media memblokir akses, ada risiko rekaman web yang telah terakumulasi selama puluhan tahun akan hilang
  • Terlepas dari sengketa hukum terkait pelatihan AI, memblokir lembaga pelestarian nirlaba dianggap sebagai respons yang keliru
    • Internet Archive tidak mengembangkan sistem AI komersial, dan menjalankan tujuan kepentingan publik berupa pelestarian sejarah
    • Dalam upaya mengendalikan akses AI, hal ini dapat berujung pada rusaknya fungsi perpustakaan dalam melestarikan catatan

Memblokir Internet Archive tidak akan menghentikan AI, tetapi akan menghapus catatan sejarah web

  • Internet Archive adalah perpustakaan digital terbesar di dunia yang telah melestarikan web dan surat kabar sejak pertengahan 1990-an, dan menyimpan lebih dari 1 triliun halaman web melalui Wayback Machine
  • Dalam beberapa bulan terakhir, The New York Times mulai memblokir crawling arsip tersebut dengan alasan kekhawatiran atas scraping konten AI, dan media lain seperti The Guardian juga menunjukkan langkah serupa
  • Pemblokiran ini bukan sekadar batasan teknis, tetapi menyebabkan terputusnya catatan sejarah
    • Internet Archive sering kali menjadi satu-satunya catatan yang memungkinkan orang memeriksa perubahan sebelum dan sesudah artikel diedit atau dihapus
    • Jika media menutup akses, catatan web yang telah terakumulasi selama puluhan tahun berisiko hilang
  • Sengketa hukum soal pelatihan AI memang sedang berlangsung, tetapi memblokir lembaga pelestarian nirlaba dinilai sebagai respons yang salah
    • Internet Archive tidak mengembangkan sistem AI komersial, dan menjalankan tujuan publik untuk pelestarian sejarah
    • Dalam proses mengendalikan akses AI, hal ini bisa berakibat pada rusaknya fungsi pelestarian catatan oleh perpustakaan

Legalitas pengarsipan dan pencarian

  • Tindakan membuat sesuatu dapat dicari telah lama diakui secara hukum sebagai fair use
    • Pengadilan menilai bahwa menyalin materi asli tidak dapat dihindari untuk membangun indeks pencarian
    • Dalam kasus Google yang menyalin seluruh buku untuk membuat basis data pencarian, hal itu juga diakui sebagai transformative purpose
  • Internet Archive juga beroperasi berdasarkan prinsip yang sama
    • Seperti perpustakaan fisik yang melestarikan surat kabar, arsip ini melestarikan catatan sejarah web
    • Peneliti dan jurnalis menggunakannya setiap hari, dan Wikipedia saja menautkan 2,6 juta artikel berita dalam 249 bahasa ke arsip tersebut
    • Tak terhitung blogger, peneliti, dan jurnalis yang bergantung padanya sebagai sumber yang stabil dan tepercaya
  • Prinsip hukum yang melindungi mesin pencari juga harus berlaku sama bagi arsip dan perpustakaan

    • Bahkan jika pengadilan membatasi pelatihan AI, legalitas pencarian dan pengarsipan web sudah merupakan hal yang mapan

Krisis pelestarian catatan sejarah

  • Internet Archive telah menjaga catatan sejarah web selama sekitar 30 tahun
  • Jika media besar mulai memblokirnya, sangat mungkin para peneliti masa depan akan kehilangan rekaman yang sangat besar
  • Perdebatan hukum terkait pelatihan AI seharusnya diselesaikan di pengadilan, tetapi diperingatkan bahwa mengorbankan catatan publik adalah kesalahan serius dan tidak dapat dipulihkan

1 komentar

 
GN⁺ 2026-03-22
Opini-opini Hacker News
  • Sebagai operator situs, saya sedang melawan crawler AI yang agresif
    Saya khawatir jangan-jangan aturan pemblokiran saya juga memblokir Internet Archive
    Facebook mengabaikan robots.txt dan menyebarkan permintaan ke banyak IP untuk melewati crawl delay
    Karena itu saya membuat aturan khusus Facebook di nginx
    Sejauh ini, pemblokiran hash JA3 adalah yang paling efektif
    Tapi saya berharap ada wrapper yang membungkus hugin-net ke nginx untuk fingerprinting TCP
    Saya tidak tahu Rust, jadi saya bahkan takut meminta LLM melakukannya
    Hanya saja pendekatan ini punya masalah race condition. Pada koneksi pertama tidak ada hash JA4, dan crawler AI hanya meminta sekali per IP, jadi tidak ada kesempatan memblokir permintaan kedua

    • Internet Archive juga tidak mematuhi robots.txt
      Dalam postingan blog resmi mereka menyatakan bahwa “masa depan pengarsipan web akan kurang bergantung pada robots.txt”
      Organisasi lain, Archiveteam, juga dikatakan mengabaikan robots.txt
      Akhir-akhir ini organisasi pengarsipan besar tampaknya hampir tidak mempertimbangkan sudut pandang operator situs
    • Teknik penghindaran seperti pengacakan atau penyamaran JA3 mudah melewati deteksi
    • Saya penasaran apakah mungkin ada mekanisme bypass pemblokiran bot yang hanya meloloskan permintaan yang ditandatangani dengan kunci whitelist
      Dengan begitu tampaknya hanya crawler Internet Archive yang bisa diizinkan
  • Saya penasaran bagaimana pandangan orang-orang yang kini mengakui bahwa scraper AI tidak bisa dihentikan sepenuhnya
    Hari ketika perbedaan antara browser manusia dan agen LLM menghilang tampaknya sudah dekat
    Mereka bisa membuka sesi GUI nyata, menelusuri halaman dengan browser, lalu mengambil snapshot di level OS untuk merekonstruksi konten
    Pada akhirnya, konsep memblokir akses di web publik itu sendiri terasa akan menjadi usang
    Kalau begitu, bagaimana cara mengurangi beban pada host individual?
    Akankah muncul lembaga pengarsipan terpusat yang tepercaya, atau pendekatan menghukum ‘perilaku buruk’ LLM?

    • Kita seharusnya sudah belajar bahwa hukum internet hampir tidak punya daya penegakan nyata
    • Jika menyediakan hash konten dan membiarkan data sebenarnya diambil dari tempat seperti IPFS atau BitTorrent, beban situs bisa berkurang
      Jika browser mendukung ini, kita bisa mendapatkan efisiensi CDN tanpa sentralisasi
    • Kalau tidak mempublikasikannya di web publik, kekhawatiran soal scraping lenyap
      Mungkin model di mana CDN langsung menjual data justru lebih efisien
    • Saat ini ribuan perusahaan AI sedang mengeruk seluruh web, tetapi ketika gelembung AI pecah, pada akhirnya hanya beberapa yang akan tersisa
      Saat itu permintaan scraping berkelanjutan akan menurun
    • Masalah sebenarnya adalah beban trafik dan biaya bandwidth
      Rasanya nalar dasar engineering dan konsep akuntansi sudah dilupakan
  • Perusahaan media melebih-lebihkan pengaruh konten mereka terhadap perkembangan AI
    Bahkan jika mereka tidak ada, kualitas LLM tidak akan jauh berbeda

    • Hanya dengan Wikipedia, Reddit, dan makalah ilmiah ada batasnya
      Pada akhirnya diperlukan teks yang beragam seperti artikel berita
    • Semakin web dipenuhi hasil buatan AI, semakin tinggi nilai teks yang ditulis manusia
      Masuk akal untuk mencari strategi agar perusahaan AI tidak menggunakannya tanpa persetujuan
  • Kita sekarang seperti membakar perpustakaan demi menghukum pembakar
    Si pembakar sudah pergi

    • Tapi kenyataannya mungkin 90% pengunjung perpustakaan adalah para pembakar
  • Itulah sebabnya archive.is dibuat
    Daripada mencoba melacak dan menghukum pendirinya, bukankah lebih baik mendukungnya sebagai proyek yang berguna?

    • Setuju. Jika archive.is hilang, archive.org akan menjadi monopoli
      archive.org menerima permintaan penghapusan dari pemilik situs, jadi jika seseorang membeli domain lama, catatan masa lalunya pun bisa dihapus
    • Tapi pendiri archive.is punya riwayat menyerang jurnalis dengan DDoS
      Karena menyeret pengguna ke dalam serangan, dia bukan sosok yang patut dipuja
  • Sebagai orang yang dulu membuat sistem antispam, saya rasa ke depan akses situs juga akan punya sistem otentikasi mirip ‘izin taksi’
    Misalnya, jika Internet Archive mengirim permintaan HTTPS yang ditandatangani, situs bisa memverifikasi bahwa itu asli
    Ini memang bertentangan dengan semangat internet terbuka, tetapi kita butuh cara membedakan crawler yang tepercaya

    • Saya meminta hal-hal berikut dari crawler yang tidak terlihat seperti manusia
      • Harus ada reverse DNS, dan domain itu punya halaman kebijakan perilaku
      • Harus ada record TXT berbasis IP yang menjelaskan siapa yang mengakses, kapan, dan seberapa sering
        Berdasarkan informasi ini saya membuat keputusan pemblokiran otomatis
        Saya bahkan sudah menulis di blog tentang kebijakan memblokir permintaan Amazon secara default
  • Saya menganggap The New York Times buruk. Karena itu justru ia harus dilestarikan demi masa depan

    • Semua artikel opini media pada akhirnya adalah propaganda
      Setiap media hanya memuat tulisan yang sesuai dengan ideologinya
    • Saya penasaran kenapa Anda menganggapnya seburuk itu. Saya tidak membacanya
  • EFF bersikap setengah hati terhadap AI
    Meski AI merusak internet dan lapangan kerja, mereka tidak mengambil posisi tegas
    Jika melihat daftar sponsor, ada banyak sponsor korporat, sehingga kredibilitas mereka sebagai organisasi kebebasan menurun
    Organisasi seperti OSI atau EFF sudah ditaklukkan korporasi dan bahkan menjadi merugikan

  • Jika Internet Archive punya program crawler IP residensial terdistribusi, saya ingin ikut berpartisipasi
    Hanya saja perlu mekanisme pencegahan manipulasi

    • Internet Archive tidak punya, tetapi ada Archive Team Warrior
    • IA menangani segalanya secara terbuka, dan bahkan menghormati permintaan DMCA yang tidak layak
    • Jika TLS diakhiri di pihak mereka, itu sederhana. Pada akhirnya akan berfungsi sebagai proxy residensial
  • Jika seseorang menjual pupuk dan diesel sekaligus, masuk akal menganggapnya pemasok pertanian
    Tetapi jika dia menjual dalam jumlah truk kepada orang yang bukan petani, wajar juga untuk curiga