- Proyek yang memulihkan postingan Li.st Anthony Bourdain yang hilang dari data perayapan web publik
- Menelusuri dan memulihkan sisa HTML pada domain li.st dengan memanfaatkan Common Crawl dan Internet Archive
- Menggunakan skrip Python
commoncrawl_search.py untuk mengumpulkan dokumen HTML dari bucket S3 publik secara otomatis
- Teks banyak postingan berhasil dipulihkan, tetapi sebagian besar file gambar hilang, dan hanya beberapa item yang tersimpan dalam bentuk HTML
- Hasil pemulihan dibuka di repositori GitHub agar komunitas dapat ikut berpartisipasi dalam pemulihan dan pelestarian lebih lanjut
Ikhtisar proyek
- Upaya memulihkan postingan Li.st Bourdain yang hilang dengan memanfaatkan data perayapan publik
- Setelah melihat sebagian daftar sebelumnya dipublikasikan di situs GReg TeChnoLogY, penulis menelusuri kemungkinan pemulihan
- Berdasarkan pengalaman di bidang keamanan dan crawling, hanya arsip data yang dapat diakses publik yang digunakan
- Menelusuri indeks dokumen Common Crawl untuk mengumpulkan data pada jalur
https://li.st/Bourdain*
- Dijalankan di lingkungan Python 3.14.2 setelah memasang dependensi
requirements.txt
- Contoh perintah:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
Proses pemulihan dan alat
commoncrawl_search.py mengirim permintaan indeks ke dataset tertentu dan mengunduh hasil yang cocok dari bucket S3 publik
- Ukuran dokumen HTML kecil sehingga relatif mudah dipulihkan
- Hasil pemulihan dirangkum dalam repositori GitHub (https://github.com/thecsw/bourdain)
- Setiap file HTML mempertahankan tata letak asli, tetapi disusun ulang tanpa mengubah isi
- Bukan hasil buatan AI, dan hanya sebagian kode yang ditulis dengan alat otomatisasi
Postingan utama yang berhasil dipulihkan
- things-i-no-longer-have-time-or-patience-for: daftar seperti ‘Cocaine’, ‘True Detective’, ‘Beer nerds’, dll.
- nice-views: pemandangan perjalanan di Montana, Puerto Rico, Naxos, LA, Istanbul, dll.
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: termasuk ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’, dll.
- objects-of-desire: koleksi pribadi seperti kacamata hitam vintage, alat trepanasi, gi BJJ, pisau Kramer, dll.
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: rekomendasi novel spionase dari penulis seperti Somerset Maugham dan Graham Greene
- hotel-slut-that-s-me: daftar hotel dari berbagai belahan dunia beserta ungkapan afeksi personal
- Banyak daftar terkait New York seperti some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures, dll.
- Sebagian besar postingan berhasil dipulihkan teksnya, tetapi semua file gambar hilang
Item yang tidak bisa dipulihkan
- Hanya postingan David Bowie Related (14 Januari 2016) yang tidak ditemukan di Common Crawl
Makna proyek dan rencana ke depan
- Pekerjaan pemulihan ini digambarkan sebagai upaya arkeologi digital yang membuktikan kemungkinan pelestarian konten web lama
- Pemulihan gambar sulit dilakukan, tetapi pembangunan arsip teks berhasil
- Siapa pun dapat berpartisipasi dalam pemulihan tambahan melalui repositori Git publik
- Menunjukkan perlunya membangun arsip publik dan mencari cara pelestarian jangka panjang
Belum ada komentar.