ArchiveBox terus berevolusi: masa depan arsip internet self-hosted
(docs.sweeting.me)- ArchiveBox memperkenalkan fitur baru untuk melakukan self-hosting arsip internet
- Setelah serangan baru-baru ini terhadap Archive.org, minat terhadap ArchiveBox meningkat
- ArchiveBox menegaskan dukungannya terhadap misi Archive.org dan menekankan bahwa layanan mereka memberikan nilai penting bagi umat manusia
Keterbatasan arsip publik
- Orang-orang enggan mengarsipkan karena takut sesuatu akan tersimpan secara permanen
- Diperlukan hak bagi individu untuk mengarsipkan hal-hal yang mereka anggap penting
- Diperlukan solusi yang dapat mengarsipkan konten pribadi dan semi-pribadi sesuai dengan lingkungan web modern
Pentingnya pengarsipan
- Keluarga, individu, dan perusahaan sama-sama ingin melestarikan konten yang penting bagi mereka
- Pengarsipan konten pribadi memiliki tantangan keamanan dan memerlukan kehati-hatian
Konten berbahaya
- Arsip publik terkadang dapat menimbulkan masalah dengan melestarikan konten seperti rasisme, kekerasan, dan ujaran kebencian
- Perlu dipikirkan bagaimana cara melestarikan konten semacam ini
Pengenalan ekosistem plugin baru ArchiveBox
- ArchiveBox v0.8 adalah pembaruan terbesar dalam sejarah proyek ini dan memperkenalkan ekosistem plugin baru
- Termasuk plugin yang menyediakan berbagai fitur dukungan komunitas
yt-dlpmengunduh video, audio, dan subtitle dari YouTube, Soundcloud, YouKu, dan lainnyapapers-dlsecara otomatis mengunduh PDF makalah ilmiah ketika menemukan nomor DOIgallery-dlmengunduh galeri foto dari Flickr, Instagram, dan lainnyaforum-dlmengunduh forum lama dan thread komentar yang bertingkat sangat dalamreadabilitymengekstrak teks artikel ke .txt, .md, dan .epubaimengirim tangkapan layar halaman dan teks ke LLM bersama prompt kustom lalu menyimpan responsnyawebhooksmemicu API eksternal setiap kali sebagian hasil disimpan dan mengirim ping ke Slack, N8N, dan lainnya- Masih banyak fitur lainnya
- Sistem plugin dibangun di atas library pluggy dan pydantic
Pengembangan tambahan
- REST API baru dibangun dengan django-ninja
- Dukungan penyimpanan eksternal ditambahkan
- Tahap awal sistem penyimpanan yang dapat dialamati berdasarkan konten diperkenalkan
- Sistem tugas latar belakang ditambahkan
- Alat baru
abx-dluntuk pengguna sederhana akan segera dirilis
"ArchiveBox dirancang secara local-first menggunakan SQLite, dan P2P selalu bersifat opsional"
Ringkasan GN⁺
- ArchiveBox adalah alat yang membantu individu dan perusahaan membangun arsip internet mereka sendiri, dan perubahan terbaru semakin memperkuat hal ini
- Alat ini melengkapi keterbatasan arsip publik dan menyediakan cara untuk menyimpan konten pribadi dan sensitif dengan aman
- Ekosistem plugin menyediakan beragam fungsi yang meningkatkan pengalaman pengguna
2 komentar
ArchiveBox - alat pengarsipan web self-hosted
Komentar Hacker News
Ada pendapat tentang keberlanjutan ArchiveBox dan perlunya perbaikan. Partisipasi komunitas penting, dan ada pemahaman terhadap kesulitan pengembang tunggal.
Ada antusiasme terhadap API dan plugin baru ArchiveBox. Sudah digunakan untuk pengarsipan selama 2 tahun.
Alat seperti
grab-sitedapat berguna untuk membuat dan menyimpan arsip WARC. Indeks CDX dan dukungan tanda tangan terenkripsi mungkin diperlukan untuk arsip terdistribusi.Berbagi pengalaman mengarsipkan informasi tentang kapal tua menggunakan ArchiveBox. Menyatakan penyesalan atas hilangnya forum web lama.
Sedang menggunakan Readeck.org untuk mengarsipkan halaman web pribadi, dan tertarik pada arah pengarsipan terdistribusi ArchiveBox.
Mengajukan pertanyaan tentang ketersediaan
abx-dldan menyatakan kesediaan untuk mendukung packaging.Ada harapan terhadap REST API, dan menyayangkan belum adanya fitur pencarian. Diperlukan kemampuan kueri melalui indeks FTS.
Merasa perlu mencoba mengarsipkan situs web menggunakan ArchiveBox. Fitur ekspor arsip dari langganan Pinboard tidak berfungsi.
Mengusulkan pembuatan pohon Merkle untuk data yang diarsipkan. Blockchain dapat dipertimbangkan sebagai cara untuk membuktikan keaslian data.
Meminta rekomendasi sistem pemantauan perubahan situs web yang di-hosting sendiri. Sedang menggunakan Huginn, tetapi mengalami kesulitan dengan situs modern berbasis JS.