1 poin oleh GN⁺ 2024-05-20 | 1 komentar | Bagikan ke WhatsApp
  • Luasnya internet dan hilangnya konten

    • Internet, yang memiliki puluhan miliar halaman web, merupakan gudang penyimpanan besar bagi kehidupan modern.
    • Namun, konten yang diandalkan pengguna kadang menghilang.
    • Analisis baru dari Pew Research Center menunjukkan bahwa konten online sangat bersifat sementara.
      • Seperempat dari seluruh halaman web yang ada antara 2013 hingga 2023 sudah tidak lagi dapat diakses per Oktober 2023.
      • Hal ini terutama karena halaman web tertentu telah dihapus atau disingkirkan.
  • Terjadinya pembusukan digital

    • Bagian "referensi" pada situs web pemerintah, situs berita, dan halaman Wikipedia diteliti.
      • 23% halaman berita memuat setidaknya satu tautan rusak.
      • 21% situs web pemerintah memuat setidaknya satu tautan rusak.
      • 54% halaman Wikipedia memuat tautan yang mengarah ke halaman yang sudah tidak ada lagi.
  • Pembusukan digital di media sosial

    • Sampel real-time tweet dikumpulkan dari platform media sosial X (saat itu Twitter) selama musim semi 2023 dan dilacak selama 3 bulan.
      • Sekitar seperlima tweet tidak lagi terlihat secara publik beberapa bulan setelah diposting.
      • Dalam 60% kasus ini, akun yang memposting tweet asli menjadi privat, ditangguhkan, atau dihapus sepenuhnya.
      • Sisa 40% terjadi ketika akun masih ada, tetapi tweet individualnya dihapus.
  • Tautan privat dan definisi halaman web

    • Ada beberapa definisi untuk halaman yang pernah ada di internet tetapi kini tidak dapat diakses.
      • Halaman tersebut sudah tidak lagi ada di server host, atau server host itu sendiri sudah tidak ada lagi.
      • Alamat halaman masih ada, tetapi kontennya telah berubah.
      • Halaman masih ada, tetapi sulit dibaca oleh pengguna tertentu (misalnya penyandang tunanetra).
    • Laporan ini berfokus pada definisi pertama: halaman yang sudah tidak ada lagi.
  • Halaman web selama 10 tahun terakhir

    • Sekitar 1 juta sampel halaman web dipilih secara acak dari arsip Common Crawl.
      • 25% dari seluruh halaman yang dikumpulkan dari 2013 hingga 2023 sudah tidak lagi dapat diakses per Oktober 2023.
      • 38% dari halaman yang dikumpulkan pada 2013 sudah tidak lagi dapat diakses pada 2023.
  • Tautan di situs web pemerintah

    • Sekitar 500.000 halaman dari situs web pemerintah yang dikumpulkan pada Maret/April 2023 diambil sebagai sampel.
      • 86% halaman memuat tautan internal, dan 6% di antaranya sudah tidak lagi dapat diakses.
      • Secara keseluruhan, 21% halaman web pemerintah yang diteliti memuat setidaknya satu tautan rusak.
  • Tautan di situs web berita

    • Sekitar 500.000 halaman dari situs web berita yang dikumpulkan pada Maret/April 2023 diambil sebagai sampel.
      • 94% situs berita memuat setidaknya satu tautan eksternal, dan 23% halaman memuat setidaknya satu tautan rusak.
  • Tautan referensi di Wikipedia

    • 50.000 halaman Wikipedia berbahasa Inggris dipilih secara acak sebagai sampel.
      • 82% dari halaman yang dikumpulkan memuat setidaknya satu tautan referensi, dan 11% dari tautan referensi tersebut sudah tidak lagi dapat diakses.
  • Postingan di Twitter

    • 5 juta tweet dikumpulkan pada musim semi 2023 dan dilacak selama 3 bulan.
      • 18% dari tweet yang dikumpulkan sudah tidak lagi terlihat secara publik pada akhir periode pelacakan.
      • Dari tweet yang hilang, 60% terjadi karena akun menjadi privat, ditangguhkan, atau dihapus.
      • 1% tweet dihapus dalam waktu satu jam, 3% dalam satu hari, 10% dalam satu minggu, dan 15% dalam satu bulan.
  • Analisis kelangsungan hidup tweet

    • Setengah dari tweet yang hilang lenyap dalam 6 hari pertama setelah diposting.
    • 90% tweet menjadi tidak dapat diakses dalam 46 hari setelah diposting.
    • Ada 6% tweet yang sempat dihapus tetapi kemudian kembali dipublikasikan.

1 komentar

 
GN⁺ 2024-05-20
Opini Hacker News

Ringkasan kumpulan komentar Hacker News

  • Masalah halaman Facebook

    • Banyak organisasi dan perusahaan hanya menggunakan halaman Facebook sehingga tidak memiliki kehadiran web lain. Akun Facebook pun menjadi syarat wajib.
  • Upaya pengarsipan

    • Situs web seperti CNN dan BBC berupaya mengarsipkan konten lama. Contoh: liputan terkait serangan 9/11.
  • Dukungan untuk Internet Archive

    • Perlu berdonasi ke Internet Archive (archive.org) untuk mendukung pelestarian konten lama. Konten penting sebaiknya juga disimpan dalam salinan lokal.
  • Pengalaman mengelola situs berita

    • Sejak 2019, ada yang mengelola situs berita dan setiap jam menggunakan crawler untuk mencari tautan mati lalu menggantinya dengan tautan arsip. Sering kali situs kandidat menghilang sehari setelah pemilu.
  • Grafik umur situs web

    • Diperkirakan banyak situs web telah hilang sejak 2013. Hilangnya situs komunitas seperti Angelfire dan Geocities sangat memengaruhi hal ini. Akan menarik jika umur situs web divisualisasikan dalam grafik.
  • Masalah situs web lama

    • Ada yang kembali melihat situs web .com pertamanya yang dulu di-host di Angelfire pada era 90-an. Saat itu terasa baik-baik saja, tetapi menurut standar sekarang banyak isinya yang tidak pantas.
  • Sifat sementara internet

    • Kita perlu menerima sifat internet yang pada dasarnya sementara. Jika ingin mengarsipkan sesuatu, sebaiknya buat salinan offline. Format PDF/A cocok untuk pengarsipan.
  • Masalah SEO

    • Sebagian besar web saat ini dipenuhi spam SEO.
  • Masalah tautan rusak

    • Ini adalah masalah besar di internet; sering kali kontennya masih ada, tetapi tautannya rusak. Sistem dua tahap seperti DOI di perpustakaan bisa membantu.
  • Pentingnya lupa dan memaafkan

    • Dunia di mana segala sesuatu tersisa selamanya akan terasa mengerikan. Upaya untuk melestarikan konten yang benar-benar bernilai itu perlu, dan justru karena itu nilainya menjadi lebih tinggi.