1 Triliun Halaman Web Disimpan di Internet Archive

(blog.archive.org)

4 poin oleh GN⁺ 2025-10-07 | 1 komentar | Bagikan ke WhatsApp

Wayback Machine yang dioperasikan oleh Internet Archive mencapai tonggak bersejarah dengan melestarikan 1 triliun halaman web di seluruh dunia
Proyek yang dimulai pada 1996 ini merupakan kolaborasi untuk melestarikan memori kolektif web, dengan mengarsipkan beragam konten seperti berita, blog, dan homepage pribadi
Untuk memperingatinya, selama bulan Oktober akan digelar serangkaian acara seperti konser, diskusi, forum, dan open house di San Francisco dan secara online
Acara ini akan dihadiri para pelopor internet seperti pencipta web Tim Berners-Lee, pendiri Internet Archive Brewster Kahle, dan Vint Cerf dari Google
Pencapaian ini menjadi momen untuk kembali menegaskan nilai pelestarian catatan kolektif di era digital, sekaligus membahas bersama masa depan web yang bebas dan terbuka

Makna pencapaian 1 triliun halaman oleh Internet Archive

Sejak 1996, Wayback Machine telah mengumpulkan dan melestarikan situs web dari seluruh dunia secara otomatis agar siapa pun dapat menjelajahi web masa lalu
Pencapaian 1 triliun ini merupakan kemajuan besar menuju tujuan sebagai "perpustakaan bersama bagi sejarah online umat manusia"
Proyek ini dipertahankan melalui kolaborasi global dengan perpustakaan, lembaga riset, dan relawan individu
Arsip ini menyimpan jejak web yang bisa hilang—seperti headline berita, blog, forum, dan homepage pribadi—sebagai memori digital untuk generasi mendatang

Jadwal acara peringatan Oktober

7 Oktober — The Vast Blue We: Del Sol Quartet at the Internet Archive

Pertunjukan di kantor pusat San Francisco untuk merayakan besarnya kolaborasi manusia, diiringi musik yang dibawakan Del Sol Quartet
Akan menampilkan karya musik baru yang digubah oleh Erika Oba dan Sam Reider
- Mengekspresikan lewat musik keindahan kolaborasi web yang dibangun dari tindakan miliaran individu

9 Oktober — Percakapan antara Sir Tim Berners-Lee dan Brewster Kahle

Diskusi antara pencipta World Wide Web Sir Tim Berners-Lee dan pendiri Internet Archive Brewster Kahle
Membahas berbagai topik seperti pertumbuhan internet, perubahan sosial, dan peran Internet Archive
Disusun sebagai percakapan mendalam tentang perkembangan berkelanjutan internet dan isu-isu masa depannya
Diselenggarakan di Commonwealth Club San Francisco dan disiarkan langsung secara online

16 Oktober — Library Leaders Forum 2025 (online)

Berbagi layanan perpustakaan baru dari Internet Archive dan institusi mitra, serta perkembangan proyek yang sudah ada
Para pemimpin perpustakaan dari seluruh dunia akan ikut serta membahas masa depan pelestarian digital dan dukungan riset
Memperkenalkan layanan baru Internet Archive dan contoh dukungan risetnya

21 Oktober — Doors Open 2025: tur arsip fisik

Membuka kepada publik lingkungan penyimpanan nyata untuk buku, musik, video, film, dan lainnya di arsip fisik yang berlokasi di Richmond, California
Menampilkan demonstrasi proses pengarsipan fisik untuk buku, musik, film, microfiche, dan lainnya
Kesempatan untuk melihat langsung seluruh siklus hidup materi fisik, mulai dari donasi, pelestarian, digitalisasi, hingga aksesibilitas

22 Oktober — The Web We’ve Built: 1 Trillion Celebration

Acara peringatan resmi pencapaian 1 triliun halaman web oleh Wayback Machine
Sekaligus digelar pesta streaming global dari kantor pusat San Francisco
Dengan tema “merayakan pencapaian melestarikan 1 triliun kenangan, momen, dan gerakan,”
acara ini memperingati nilai web terbuka dan kekuatan catatan kolektif

27 Oktober — Wayback to the Future: Celebrating the Open Web

Diselenggarakan di Riggs Library Universitas Georgetown, Washington D.C.
Diselenggarakan bersama oleh Foundation for American Innovation, Massive Data Institute, dan Internet Archive
Meninjau kembali nilai web masa lalu yang terbuka dan eksperimental, sekaligus membahas keberlanjutan ekosistem internet yang bebas dan masa depan web di tengah arus sentralisasi dan penutupan saat ini
Pembicara mencakup Vint Cerf (Google), Cindy Cohn (EFF), dan Jon Stokes (Ars Technica)

Masa depan memori digital

Penyimpanan 1 triliun halaman web memiliki makna lebih dari sekadar angka
Data ini menjadikan Wayback Machine sebagai sumber daya publik yang penting di berbagai bidang seperti kasus imigrasi, sejarah pribadi, riset akademik, dan jurnalisme investigatif
Ke depan, Internet Archive akan terus melanjutkan visinya sebagai "perpustakaan web publik yang dapat diakses semua orang"
Pencapaian 1 triliun halaman bukanlah akhir, melainkan titik awal yang baru,
dan diskusi tentang cara mengakses serta melestarikan informasi di era AI juga akan terus berlanjut
Brewster Kahle menekankan, “Web yang telah kita bangun bersama adalah arsip raksasa dari kecerdasan kolektif,
dan menjaganya adalah tanggung jawab umat manusia”

1 komentar

GN⁺ 2025-10-07

Komentar Hacker News

Kalau ada satu hal yang kuharapkan, itu adalah jaringan mirror peer untuk archive.org. Aplikasi web IA cenderung cepat membatasi akses kalau kita mencoba mengeklik banyak tanggal. Akan keren kalau ada mirror terdistribusi lambat untuk konten archive.org dengan model mirip torrent, sehingga bisa muncul sebagai sumber alternatif tempat pengguna dapat memilih dan memverifikasi data secara selektif. Saat ini aku menjalankan arsipku sendiri dengan ArchiveBox, tetapi itu hanya kupakai untuk kebutuhan pribadi. Kebanyakan orang tetap memakai IA karena materinya memang sangat banyak.
- Archive Team, terpisah dari Internet Archive, pernah menjalankan proyek untuk mencadangkan sebagian arsip internet secara terdistribusi. Detail dan progresnya bisa dilihat di wiki proyek INTERNETARCHIVE.BAK. Namun belakangan ini statusnya ditangguhkan sementara.
- Aku benar-benar merasakan bahwa arsip web bisa sangat lambat. Sepertinya scraper AI juga ikut menciptakan bottleneck bandwidth. Beberapa arsip digital, seperti Common Crawl, mengharuskan pembuatan akun ilmuwan tersendiri untuk bisa mengaksesnya. Karena volume datanya sangat besar dan tujuan penyimpanannya juga masif, mereka menyimpan bukan hanya internet tetapi juga dimensi tambahan bernama waktu. Datanya jadi terlalu banyak sehingga penelusuran atau pencarian sangat sulit, sampai-sampai nyaris tak bisa dipakai dalam praktik. Karena itu aku membuat sendiri proyek tautan metadata Internet-Places-Database untuk mendapatkan informasi domain.
- Dulu saat mengerjakan proyek scraping, aku mencoba mencari snapshot lama dan menyadari bahwa mengekstrak informasi dari Internet Archive ternyata jauh lebih sulit dari perkiraan. Keadaannya jauh membaik setelah memakai pywaybackup.
- Aku penasaran kenapa IA tidak menjalankan instance IPFS, atau mungkin menjalankannya tetapi kurang populer. Sudah ada cukup banyak layanan mirror IPFS yang bekerja lumayan cepat. Salah satu masalah yang pernah kualami di IA adalah situs web yang sangat lama kadang tidak dirender dengan benar karena masalah JS atau CSS. Aku juga bertanya-tanya apakah ada cara untuk memperbaiki hal-hal seperti itu secara retroaktif. Kalau semua kode yang saat itu memungkinkan bisa diekspor, mungkin situsnya bisa dipulihkan dengan jauh lebih lengkap. Akan sangat bagus kalau saat mengeklik domain di IA, klien desktop bisa perlahan mengunduh file WAR sebanyak yang diinginkan lewat antrean prioritas rendah, lalu memungkinkan kita melihatnya secara sempurna bahkan saat offline.
- Aku pernah membayangkan sistem untuk “menyumbangkan” ruang penyimpanan sisa ke archive.org. Idenya, kita menjalankan klien dan menyatakan akan menyediakan 1TB, lalu server mengirimkan konten yang paling langka ke komputerk kita. Sistemnya berbasis torrent, dan di atasnya juga bisa dipasang sistem distribusi konten yang mudah. Data juga bisa diambil dari jaringan ini. Aku sempat mengirim email ke beberapa tim arsip, tetapi tidak ada yang tertarik, jadi akhirnya tidak kubuat.
Aku memimpin tim data center/infrastruktur di Internet Archive. Aku ingin mengundang semua orang ke berbagai acara yang kami adakan musim gugur ini. Jika harga tiket terasa berat, silakan hubungi lewat email (lihat profil), kami akan berusaha semaksimal mungkin agar kalian tetap bisa ikut.
- Aku penasaran apakah tim IA mengadakan acara terdistribusi di berbagai belahan dunia, atau semuanya berkumpul di SF. Dan terima kasih, kalian benar-benar melakukan pekerjaan yang penting bagi umat manusia.
- Aku pernah ingin bekerja di IA, tetapi kesempatan rekrutmennya memang sangat jarang.
- Aku penasaran dengan cerita teknis di balik pencapaian ini, misalnya detail tentang metode web crawling atau cara penyimpanannya.
- Aku ingin tahu lebih spesifik acara seperti apa yang dimaksud.
Pencapaian mengarsipkan 1 triliun halaman web ini luar biasa, tapi... tidak ada cara untuk mencarinya. Pada akhirnya, kalau tahu URL-nya, kita harus memasukkannya langsung untuk menemukannya, dan itu sangat mengurangi kegunaan layanan ini. Misalnya, akan bagus kalau kita bisa mencari semua nama artis tertentu, nama file, atau bahkan isi gambar.
- Mengindeks semuanya terdengar seperti mimpi buruk.
- Seingatku fitur ini pernah bisa dilakukan di tempat seperti Kagi, tetapi sekarang aku tidak tahu lagi bisa dipakai di mana.
- Kita perlu memikirkan persoalan privasi dalam proses ini. Aturan robots.txt akan menjadi tak berarti, dan penghapusan situs pun pada praktiknya akan mustahil dilakukan secara retroaktif. Memang, pada akhirnya ini tetap materi publik sehingga tak banyak yang bisa dicegah, tetapi membuat seluruh IA bisa dicari terasa seperti ide yang sangat buruk.
- Aku kadang memakai pencarian web GPT dan memintanya mencarikan buku teks di IA. Untuk pencarian buku teks itu cukup cocok, tetapi untuk halaman web umum aku tidak tahu seberapa bergunanya.
Jika ingin menyumbangkan materi tambahan ke IA, ArchiveTeam adalah kelompok relawan yang terkait untuk itu. Mereka mengirim data ke IA, dan informasi lebih lanjut bisa dilihat di archiveteam.org.
- Seseorang tetap perlu menentukan secara manual materi seperti apa yang layak diarsipkan. Harus ada filter agar orang tidak memakai IA sebagai penyimpanan gratis untuk foto perjalanan mereka.
Menurutku Internet Archive seharusnya membuat kesepakatan besar dengan perusahaan AI... misalnya, kami akan memberikan satu truk penuh data kepada perusahaan AI, dan sebagai gantinya mereka memberi donasi besar agar IA bisa terus beroperasi selama beberapa tahun ke depan. Kalau mereka tidak mau membayar, akses tetap diizinkan, tetapi kecepatan unduhnya diperlambat drastis sehingga perlu waktu bertahun-tahun untuk mengambil seluruh datanya.
- Itu akan merusak kepercayaan yang sudah dibangun selama ini sebagai barang publik. Kebanyakan orang mungkin oke jika konten yang mereka buat disimpan oleh IA, tetapi kalau IA mulai menghasilkan uang dari situ, pasti akan muncul penolakan yang sangat besar.
Aku penasaran apakah Internet Archive dan Common Crawl pernah bekerja sama. Aku ingin membandingkan cakupan dan infrastruktur kedua organisasi itu. Tujuannya memang berbeda, tetapi secara praktik mereka melakukan hal yang mirip.
- IA menerima data yang dikumpulkan dari berbagai kelompok seperti ArchiveTeam, termasuk WARC yang dikumpulkan oleh CC.
Artis Sam Reider yang tampil di acara offline minggu ini benar-benar hebat. Aku sangat menantikannya.
Jadi maksudnya, tanpa harus melakukan crawling ke seluruh web sendiri, kita bisa memperoleh semua data hanya dengan membayar Archive?
Mereka sedang mengumpulkan cerita di postingan blog terkait, jadi silakan lihat
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
Ini benar-benar tonggak yang luar biasa dalam sejarah internet

1 Triliun Halaman Web Disimpan di Internet Archive

Makna pencapaian 1 triliun halaman oleh Internet Archive

Jadwal acara peringatan Oktober

7 Oktober — The Vast Blue We: Del Sol Quartet at the Internet Archive

9 Oktober — Percakapan antara Sir Tim Berners-Lee dan Brewster Kahle

16 Oktober — Library Leaders Forum 2025 (online)

21 Oktober — Doors Open 2025: tur arsip fisik

22 Oktober — The Web We’ve Built: 1 Trillion Celebration

27 Oktober — Wayback to the Future: Celebrating the Open Web

Masa depan memori digital

Bacaan terkait

1 komentar

Komentar Hacker News