1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Media besar seperti New York Times, The Atlantic, USA Today dan lainnya memblokir pelestarian berita mereka di Wayback Machine, sehingga muncul seruan agar praktik ini dihentikan
  • Para pemimpin media besar harus berjanji secara terbuka untuk bekerja sama dengan Internet Archive agar semua berita disimpan di Wayback Machine
  • Tahun 2026 disebut sebagai tahun pertama dalam 30 tahun ketika karya media besar tidak disimpan di Internet Archive pada World Press Freedom Day
  • Kekhawatiran AI yang dijadikan alasan pelarangan oleh perusahaan media dinilai hipotetis, dan di era AI generatif pelestarian independen justru makin penting
  • Di tengah meningkatnya sensor, otoritarianisme, dan ancaman pembunuhan terhadap jurnalis, pelestarian oleh pihak ketiga yang netral membantu memastikan peliputan tidak hilang

Latar belakang pemblokiran

  • Tahun 2026 disebut sebagai tahun pertama dalam 30 tahun ketika karya media besar seperti New York Times, The Atlantic, dan USA Today tidak disimpan di Internet Archive, organisasi nirlaba independen, pada World Press Freedom Day
  • New York Times sejak Februari tahun ini meminta Internet Archive agar Wayback Machine tidak menyimpan karya para jurnalisnya
  • Menurut laporan Wired, USA Today menerbitkan liputan kuat yang bergantung pada Wayback Machine, tetapi pada saat yang sama memblokir agar liputan itu sendiri tidak disimpan di Wayback Machine
  • Setelah lebih dari 100 jurnalis menyampaikan surat yang mendukung pelestarian pers oleh Internet Archive, CEO The Atlantic menyampaikan posisinya, tetapi tidak berjanji akan mencari solusi

Kekhawatiran AI dan peran Wayback Machine

  • Kekhawatiran AI yang diajukan media-media ini sebagai alasan melarang Wayback Machine dibahas sebagai sesuatu yang sepenuhnya hipotetis
  • AI generatif tidak bisa menjadi alasan untuk menyembunyikan pelaporan yang berprinsip dari para pemeriksa fakta, dan justru makin menegaskan perlunya Wayback Machine
  • Perusahaan AI dapat mengabaikan aturan seperti situs arsip tiruan dan mengambil berita dari situs penerbit tanpa persetujuan, sementara cara untuk mencegahnya dinilai hampir tidak ada
  • Wayback Machine berbeda dari layanan yang menggunakan kata “archive” dan berupaya terlihat mirip dengan Internet Archive, dan bukan layanan sementara
  • Wayback Machine telah menyimpan berita lebih lama daripada usia banyak orang yang menandatangani petisi ini
  • Wayback Machine dipandang bukan sebagai layanan untuk melewati paywall, melainkan sebagai barang publik nirlaba independen untuk pelestarian pers
  • Alasan Internet Archive tidak bertindak seperti kebanyakan perusahaan Silicon Valley adalah integrity, dan hal ini dinilai membuat Internet Archive layak dipercaya serta mampu beroperasi dalam jangka panjang

Pelestarian pers dan kepentingan publik

  • Kebebasan pers bukan hanya kebebasan untuk menulis artikel, tetapi juga kebebasan agar karya itu dapat dibaca dan diingat lintas generasi
  • Ketika sensor dan otoritarianisme meningkat, tekanan untuk mengubah peliputan atau menghapus fakta juga ikut bertambah
  • Jurnalis sering menerima ancaman pembunuhan, dan disebutkan bahwa dalam satu tahun terakhir beberapa jurnalis meninggal karena pekerjaan mereka
  • Dalam situasi seperti ini, pelestarian netral oleh pihak ketiga melalui Wayback Machine perlu diperkuat agar karya jurnalis tidak hilang
  • Peliputan harus dapat diakses bukan hanya oleh rekan kerja dan keluarga yang ditinggalkan, tetapi juga oleh mata sejarah
  • Wayback Machine membantu media berita online lebih mampu bertahan dari tekanan untuk menghapus artikel yang mengancam pihak berkuasa
  • Jika sebuah media berita benar-benar menjalankan jurnalisme, mendukung aliansi semacam ini juga sejalan dengan kepentingannya sendiri

Tuntutan dan referensi

  • Pimpinan media besar harus secara terbuka berjanji untuk bekerja sama dengan Internet Archive agar semua berita disimpan di Wayback Machine
  • Seharusnya tidak sesulit ini untuk menemukan cara melestarikan berita secara independen
  • Referensi

1 komentar

 
GN⁺ 1 jam lalu
Komentar Hacker News
  • Ada yang penasaran apakah ini terjadi karena archive.org menghormati robots.txt, dan situs-situs tersebut memblokir pengindeksan oleh crawler
    Mengecewakan karena “bertindak benar” dengan mematuhi robots.txt justru berujung pada beban harus menanggapi petisi, sementara pihak yang mengabaikan instruksi yang sama malah diuntungkan

    • Jika crawler yang terkenal seperti archive.org mengabaikan robots.txt, besar kemungkinan mereka akan menghadapi gugatan atau tekanan lain
      Ini bukan sekadar pilihan moral, melainkan nyaris satu-satunya pilihan yang masuk akal, dan alasan “pihak lain diuntungkan” adalah karena kewajiban yang mirip janji itu terlalu kecil atau terlalu tersembunyi sehingga tidak ada insentif untuk menggugat pihak-pihak kecil atau yang kurang terlihat
    • Betul. robots.txt milik nytimes.com punya potongan seperti ini: User-agent: archive.org_bot / Disallow: /
    • Alasannya karena mereka ingin mencegah perusahaan AI mencuri konten, dan kalau Internet Archive mem-proxy semuanya, itu jadi tak bisa dicegah
      Kalau berita terbaru tidak bisa discrape, semua model bahasa besar akan jauh kurang berguna
    • Bukan, archive.org tidak menghormati robots.txt. Harus menghubungi mereka langsung dan meminta agar situs saya tidak dimasukkan: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • Ini kebodohan yang sama seperti yang diciptakan DRM
      Seolah menyuruh orang jadi bajak laut, karena bajak laut itu bebas
  • Masalahnya tampaknya adalah jika Archive.org bisa mengakses konten NYT dan penerbit lain, orang bisa mengumpulkan konten NYT dalam jumlah besar melalui Archive.org meskipun mereka tidak bisa melakukan scraping besar-besaran langsung dari NYT
    Jika Archive.org memblokir scraper, para penerbit mungkin akan mengambil pilihan berbeda dan mengizinkan akses Archive.org

  • Ide: bagaimana kalau scraping diizinkan tetapi tidak boleh dipublikasikan selama 1 tahun?

    • Perlu juga ada dana litigasi bersama agar Archive bisa dipaksa ikut berkontribusi kembali terhadap crawler LLM
  • Seperti Financial Times yang tersedia di layanan NewsBank dengan eskro 30 hari, mereka juga tampaknya bisa memakai eskro

  • Kalau memakai topi teori konspirasi, mungkin sebagian alasannya adalah mereka suka berada dalam posisi bisa diam-diam merevisi dan berpura-pura versi artikel lama tidak pernah ada

  • Jadi orang-orang yang bahkan tidak pernah melihat iklan organisasi itu dan tidak pernah membayar biaya langganan ingin bertengkar demi menuntut agar organisasi-organisasi itu membiarkan pintu belakang tetap terbuka?

  • Sedikit tahu soal perdebatan ini dari pihak Times dan Atlantic. Mungkin saya akan kena kecam, tetapi saya pernah bertanya kepada petinggi dari yang pertama apa pendapat mereka soal cara umum melewati paywall di HN, dan saya benar-benar terkejut mereka bahkan belum pernah mendengarnya
    Pada akhirnya mereka setuju bahwa keseimbangan yang tepat adalah dibuka setelah 30 hari, dengan pembatasan akses seperti tidak boleh diambil lebih dari N kali per hari jika nantinya itu dianggap perlu. Setahu saya Internet Archive belum proaktif menghubungi soal masalah ini, dan tekanan untuk bernegosiasi seharusnya ditujukan bukan hanya ke penerbit, tetapi juga ke Internet Archive

    • Tampak seperti kompromi yang cukup bagus. Organisasi berita bisa mempertahankan lonjakan pageview awal, dan peran internet sebagai sumber informasi gratis/perpustakaan universal juga tetap terjaga
      Meski begitu, majalah tetap ingin mengendalikan back catalog mereka. Bahkan sekarang mereka menjual akses ke perpustakaan dan universitas, dan seperti sudah sering muncul di HN, sebagian organisasi berita mungkin ingin mengubah atau memperbarui artikel tanpa “riwayat revisi” yang terbuka
    • Apakah Internet Archive benar-benar rutin dipakai untuk melewati paywall? Biasanya yang dipakai archive.is, dan itu tidak terkait dengan IA
    • Bukankah membatasi agar tidak bisa diambil lebih dari N kali per hari “jika itu menjadi relevan” justru menguntungkan mereka bagaimanapun hasilnya?
      Jadi penasaran apakah di suatu tempat ada dashboard statistik digital yang menyedihkan, dan pemujaan terhadap angka itu sudah menggantikan semangat asli jurnalisme
    • Tidak terlalu mengejutkan. Mereka bekerja dengan model yang salah dari era yang salah dan insentif yang salah
      Mereka masih bertindak seolah hidup di dunia tempat data dan informasi langka dan mereka satu-satunya sumber kebenaran. Sekarang keadaan berbalik: tidak ada satu kebenaran patokan, tetapi data dan informasi melimpah, dan kelimpahan itu juga mencakup data palsu dan kebohongan. Peliputan investigatif yang dilakukan NYT dan Atlantic pada hari terbaik mereka menambah nilai bagi dunia, tetapi meski para jurnalis ingin pekerjaan itu bisa diakses, institusinya justru berusaha menyembunyikan dan mengisolasinya. Idealnya, setiap anak bisa belajar bahasa Inggris lewat NYT dan Atlantic, tumbuh bersama media pencatat itu, dan melihat dunia melaluinya, tetapi model saat ini tidak mengizinkan itu. Mungkin pendekatan campuran patronase dan yayasan ala Wikimedia lebih cocok. Pembaca yang mencintai institusi dan misinya membayar sebanyak yang mereka mau, mendapat manfaat sesuai jumlahnya, dan kontribusi masuk ke dana abadi untuk diinvestasikan, lalu hasilnya dialokasikan ke sebagian anggaran operasional. Di dunia yang kaya informasi, jurnalisme klasik sulit bertahan tanpa pendekatan berbasis patronase
    • Saya berharap situs “berita” seperti ini tidak muncul di HN sama sekali. Jika artikelnya faktual dan layak didiskusikan, organisasi yang lebih tepercaya seperti Reuters akan melaporkannya, atau itu akan menjadi sumber primer yang memang layak diposting langsung
      Terlalu sering mereka melaporkan detail dan kutipan secara selektif, atau melaporkan fakta dari sumber tak tepercaya yang belakangan terbukti sepenuhnya salah. Dalam kasus yang terakhir, mereka diam-diam menarik artikelnya sehingga sebagian besar pembaca tetap percaya pada kebohongan itu. Mungkin itu juga sebabnya mereka tidak ingin diarsipkan. Lebih baik memposting tulisan blog kecil; mungkin bias dan tidak bisa dipercaya, tetapi ada pemikiran orisinal, mendukung individu, dan bisa tanpa iklan. Tentu saja, banyaknya blog LLM yang jelas-jelas muncul di sini adalah masalah lain
  • Menantikan ini: (https://news.ycombinator.com/item?id=48070516)

  • Kita butuh arsip internet yang bisa diverifikasi secara kriptografis. Mungkin itu tidak mungkin tanpa hal seperti web3 atau nostr, gpg/pgp

    • Cukup baik juga kalau ada beberapa arsip yang tidak saling terkait
    • Mengapa Archive tidak memublikasikan sesuatu seperti tanda tangan SSL untuk semua permintaan?
      Stempel waktu bisa diverifikasi secara kriptografis dengan cara seperti opentimestamps yang ditumpangkan ke Bitcoin
  • Saya sudah menandatangani, tapi kita harus jujur
    Jika dibuat diagram lingkaran antara berapa kali saya membaca artikel NYT lama lewat Wayback Machine dan berapa kali komentar teratas HN menautkan artikel yang relatif baru lalu semua orang datang untuk melewati paywall, hasilnya akan menjadi satu lingkaran penuh

    • Kalau tidak ada arsipnya, apakah saya akan membayar NYT untuk melihat artikel itu? Sepertinya tidak