1 poin oleh GN⁺ 2025-12-15 | Belum ada komentar. | Bagikan ke WhatsApp
  • Proyek yang memulihkan postingan Li.st Anthony Bourdain yang hilang dari data perayapan web publik
  • Menelusuri dan memulihkan sisa HTML pada domain li.st dengan memanfaatkan Common Crawl dan Internet Archive
  • Menggunakan skrip Python commoncrawl_search.py untuk mengumpulkan dokumen HTML dari bucket S3 publik secara otomatis
  • Teks banyak postingan berhasil dipulihkan, tetapi sebagian besar file gambar hilang, dan hanya beberapa item yang tersimpan dalam bentuk HTML
  • Hasil pemulihan dibuka di repositori GitHub agar komunitas dapat ikut berpartisipasi dalam pemulihan dan pelestarian lebih lanjut

Ikhtisar proyek

  • Upaya memulihkan postingan Li.st Bourdain yang hilang dengan memanfaatkan data perayapan publik
    • Setelah melihat sebagian daftar sebelumnya dipublikasikan di situs GReg TeChnoLogY, penulis menelusuri kemungkinan pemulihan
    • Berdasarkan pengalaman di bidang keamanan dan crawling, hanya arsip data yang dapat diakses publik yang digunakan
  • Menelusuri indeks dokumen Common Crawl untuk mengumpulkan data pada jalur https://li.st/Bourdain*
    • Dijalankan di lingkungan Python 3.14.2 setelah memasang dependensi requirements.txt
    • Contoh perintah: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

Proses pemulihan dan alat

  • commoncrawl_search.py mengirim permintaan indeks ke dataset tertentu dan mengunduh hasil yang cocok dari bucket S3 publik
    • Ukuran dokumen HTML kecil sehingga relatif mudah dipulihkan
  • Hasil pemulihan dirangkum dalam repositori GitHub (https://github.com/thecsw/bourdain)
    • Setiap file HTML mempertahankan tata letak asli, tetapi disusun ulang tanpa mengubah isi
    • Bukan hasil buatan AI, dan hanya sebagian kode yang ditulis dengan alat otomatisasi

Postingan utama yang berhasil dipulihkan

  • things-i-no-longer-have-time-or-patience-for: daftar seperti ‘Cocaine’, ‘True Detective’, ‘Beer nerds’, dll.
  • nice-views: pemandangan perjalanan di Montana, Puerto Rico, Naxos, LA, Istanbul, dll.
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: termasuk ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’, dll.
  • objects-of-desire: koleksi pribadi seperti kacamata hitam vintage, alat trepanasi, gi BJJ, pisau Kramer, dll.
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: rekomendasi novel spionase dari penulis seperti Somerset Maugham dan Graham Greene
  • hotel-slut-that-s-me: daftar hotel dari berbagai belahan dunia beserta ungkapan afeksi personal
  • Banyak daftar terkait New York seperti some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures, dll.
  • Sebagian besar postingan berhasil dipulihkan teksnya, tetapi semua file gambar hilang

Item yang tidak bisa dipulihkan

  • Hanya postingan David Bowie Related (14 Januari 2016) yang tidak ditemukan di Common Crawl

Makna proyek dan rencana ke depan

  • Pekerjaan pemulihan ini digambarkan sebagai upaya arkeologi digital yang membuktikan kemungkinan pelestarian konten web lama
  • Pemulihan gambar sulit dilakukan, tetapi pembangunan arsip teks berhasil
  • Siapa pun dapat berpartisipasi dalam pemulihan tambahan melalui repositori Git publik
  • Menunjukkan perlunya membangun arsip publik dan mencari cara pelestarian jangka panjang

Belum ada komentar.

Belum ada komentar.