- Alat open-source yang mengonversi data dari platform seperti Reddit, Voat, dan Ruqqus menjadi arsip HTML berbasis PostgreSQL
- Memproses 2,38 miliar posting Reddit secara lokal (mencakup sekitar 40 ribu subreddit), serta menyediakan desain ramah seluler dan antarmuka tanpa JavaScript
- Di tengah kondisi ketika akses ke Reddit API praktis terhenti dan aplikasi pihak ketiga serta akses data diblokir, proyek ini memanfaatkan dataset Pushshift yang sudah ada untuk mengubah arsip Reddit lengkap menjadi milik pribadi
- Berjalan sebagai HTML statis tanpa JavaScript, permintaan eksternal, maupun pelacakan, sehingga dapat dioperasikan dalam berbagai bentuk seperti offline, lingkungan air-gap, USB, Raspberry Pi, atau server LAN
- Mendukung analisis dan kueri skala besar melalui PostgreSQL full-text search (FTS), lebih dari 30 REST API, serta server MCP (29 alat) untuk integrasi dengan alat AI
Perubahan lingkungan akses data Reddit
- Reddit API pada praktiknya telah berubah menjadi tidak dapat digunakan untuk keperluan pengarsipan
- Ekosistem aplikasi pihak ketiga runtuh dan ancaman pemblokiran akses ke dataset Pushshift terus berulang
- Dataset Pushshift adalah arsip berskala besar yang mengumpulkan dan menyimpan posting serta komentar publik Reddit dalam jangka panjang, mencakup miliaran catatan teks
- Ini adalah data snapshot dari masa lalu yang dikumpulkan melalui API resmi Reddit, sehingga bisa dimanfaatkan tanpa mengakses server atau API Reddit saat ini
- Setelah perubahan kebijakan API dan pembatasan akses data, ini pada praktiknya menjadi sumber data publik terakhir untuk pelestarian sejarah Reddit dan analisis skala besar
- Melalui Pushshift, catatan lengkap Reddit di masa lalu sudah dipublikasikan dalam bentuk torrent
Gambaran proyek Redd-Archiver
- Redd-Archiver v1.0 mengonversi dump data publik dari Reddit, Voat, dan Ruqqus untuk membuat arsip HTML yang bisa dijelajahi
- Menggunakan backend PostgreSQL untuk memproses dataset besar dengan memori tetap (4GB), serta menyediakan pencarian cepat melalui FTS berbasis indeks GIN
- Output HTML memungkinkan pengurutan, pagination, dan penelusuran pohon komentar bahkan saat offline
Struktur inti alat pengarsipan Redd-Archiver
- Menggunakan dump Reddit (.zst), Voat (SQL), dan Ruqqus (.7z) sebagai input
- Integrasi multi-platform: menggabungkan 3 platform ke dalam satu arsip. Mendukung deteksi platform otomatis dan pencarian terpadu
- Menyediakan skema jalur
/r/, /v/, /g/ melalui flag CLI dan prefiks URL
- Ketergantungan pada server dihilangkan dengan pendekatan pembuatan file HTML statis
- Cukup buka
index.html untuk menjelajah, tanpa perlu jaringan eksternal
- Tata letak responsif yang mobile-first dan navigasi ramah sentuhan
- Menyediakan indeks pengurutan berdasarkan skor, komentar, tanggal, serta pagination
- Interaksi berbasis CSS tanpa JavaScript
- Konfigurasi PostgreSQL FTS mendukung full-text search terpadu lintas platform
- Dapat difilter berdasarkan kata kunci, penulis, tanggal, skor, dan lainnya
- Menyediakan REST API yang mencakup kueri posting, komentar, pengguna, subreddit, dan agregasi
- Termasuk server MCP yang memungkinkan alat AI mengajukan kueri langsung ke arsip
- Di Claude Desktop atau Claude Code, pengguna dapat menjalankan kueri posting, komentar, pengguna, dan pencarian
- Mampu menangani puluhan juta posting per instance
- Dengan struktur PostgreSQL, penggunaan memori tetap konstan terlepas dari ukuran data
- Untuk keseluruhan 2.38B posting, disarankan menjalankan beberapa instance terpisah berdasarkan topik
- Diimplementasikan dengan Python, PostgreSQL, Jinja2, dan Docker (memanfaatkan Claude Code sebagai bantuan pengembangan secara umum)
Skenario deployment dan operasional
- Mendukung penjelajahan offline berbasis drive USB atau folder lokal
- Lokal/homelab: dapat dijalankan dalam lingkungan HTTP atau Tor dengan satu perintah
- HTTPS produksi: pengaturan sertifikat Let’s Encrypt otomatis (sekitar 5 menit)
- Tor hidden service: akses melalui alamat
.onion tanpa port forwarding
- Static hosting: dapat diunggah ke GitHub Pages atau Codeberg Pages (tanpa fitur pencarian)
- Deployment berbasis Docker: konfigurasi sepenuhnya otomatis termasuk PostgreSQL
- Mendukung penjelajahan offline, server pencarian lokal, serta mode Tor/HTTPS secara bersamaan
Informasi publik
1 komentar
Komentar Hacker News
Ini cara yang keren untuk self-host arsip
Secara pribadi, saya berharap ada plugin yang otomatis memulihkan komentar yang dihapus atau ditimpa bot ke versi aslinya
Salah satu alasan Reddit makin sulit dipakai belakangan ini adalah karena setengah dari tautan lama sudah berubah menjadi komentar tak berguna akibat penimpaan sebagai bentuk protes
Ironisnya, versi aslinya tetap tersimpan di arsip untuk pelatihan AI, tetapi dari sudut pandang pengguna justru jadi tidak bisa menemukan hal seperti solusi driver printer dari 2 tahun lalu
Membuat situs menjadi kurang berguna memang tujuan mereka, dan inti protesnya adalah mendorong pengguna untuk pergi
Saya tidak merasa perlu membongkar arsip untuk meniadakan keputusan tersebut. Tinggal lanjut saja
Datanya bisa diunduh lewat torrent
Tautan: repositori redd-archiver
Ini membantu menentukan komunitas mana yang perlu diprioritaskan untuk dilestarikan
Ini proyek yang sangat keren
Selain PushShift, ada juga arsip lain — misalnya Arctic Shift atau PullPush yang menyediakan dataset berbeda
Postingan atau komentar yang tercakup bisa berbeda tergantung cakupan permintaan penghapusan
Saya jadi berpikir apakah data ini bisa dipakai untuk me-seed ulang media sosial terdesentralisasi
Semacam mem-fork sebuah proyek
API-nya juga mendukung ini sehingga arsip bisa di-host bersama secara terdesentralisasi
Proyek yang sangat menarik
Yang saya penasaran adalah apakah dataset Pushshift diperbarui secara berkala, atau hanya snapshot dari satu titik waktu tertentu
Kalau self-host, saya ingin tahu apakah data baru perlu diunduh ulang secara berkala
watchful1 sedang membagi dan memproses ulang data, dan ke depannya akan mengambil dump Arctic Shift untuk mendukung pembaruan bulanan
Tautan terkait:
Saya juga sedang mengerjakan proyek serupa, dan sudah mengunggah data Reddit dari Pushshift ke Hugging Face Datasets
Saat seed torrent lemah, file individual bisa langsung diunduh dari huggingface.co/datasets/nick007x/pushshift-reddit
Berguna bagi orang yang ingin menguji data bulanan atau hanya subreddit tertentu
Saya mencoba menjalankan lingkungan lokal dengan Docker Compose, tetapi gagal
Tidak ada file
.env.example, dan meskipun variabel lingkungan diatur manual tetap muncul masalah path volumeSepertinya masih perlu sedikit dirapikan
mkdirCommit terkait: 0bb1039, c3754ea
Saya penasaran apakah ini bisa diintegrasikan dengan aplikasi Apollo yang sudah mati untuk memulihkan satu titik waktu dari Reddit lama
Saya tidak ingin menyimpan seluruh Reddit di komputer saya
Akan bagus kalau bisa memilih subreddit tertentu saja
watchful1 sudah membagi datanya per subreddit sehingga Anda bisa mengunduh hanya bagian yang diinginkan
Saya ingin tahu apakah ada cara untuk memeriksa apakah subreddit yang dijadikan privat 2–3 tahun lalu termasuk dalam dump data
Di field status Anda bisa memeriksa apakah privat, dan ada banyak detail lain juga