3 poin oleh GN⁺ 2026-01-16 | 1 komentar | Bagikan ke WhatsApp
  • Alat open-source yang mengonversi data dari platform seperti Reddit, Voat, dan Ruqqus menjadi arsip HTML berbasis PostgreSQL
  • Memproses 2,38 miliar posting Reddit secara lokal (mencakup sekitar 40 ribu subreddit), serta menyediakan desain ramah seluler dan antarmuka tanpa JavaScript
  • Di tengah kondisi ketika akses ke Reddit API praktis terhenti dan aplikasi pihak ketiga serta akses data diblokir, proyek ini memanfaatkan dataset Pushshift yang sudah ada untuk mengubah arsip Reddit lengkap menjadi milik pribadi
  • Berjalan sebagai HTML statis tanpa JavaScript, permintaan eksternal, maupun pelacakan, sehingga dapat dioperasikan dalam berbagai bentuk seperti offline, lingkungan air-gap, USB, Raspberry Pi, atau server LAN
  • Mendukung analisis dan kueri skala besar melalui PostgreSQL full-text search (FTS), lebih dari 30 REST API, serta server MCP (29 alat) untuk integrasi dengan alat AI

Perubahan lingkungan akses data Reddit

  • Reddit API pada praktiknya telah berubah menjadi tidak dapat digunakan untuk keperluan pengarsipan
  • Ekosistem aplikasi pihak ketiga runtuh dan ancaman pemblokiran akses ke dataset Pushshift terus berulang
    • Dataset Pushshift adalah arsip berskala besar yang mengumpulkan dan menyimpan posting serta komentar publik Reddit dalam jangka panjang, mencakup miliaran catatan teks
    • Ini adalah data snapshot dari masa lalu yang dikumpulkan melalui API resmi Reddit, sehingga bisa dimanfaatkan tanpa mengakses server atau API Reddit saat ini
    • Setelah perubahan kebijakan API dan pembatasan akses data, ini pada praktiknya menjadi sumber data publik terakhir untuk pelestarian sejarah Reddit dan analisis skala besar
  • Melalui Pushshift, catatan lengkap Reddit di masa lalu sudah dipublikasikan dalam bentuk torrent

Gambaran proyek Redd-Archiver

  • Redd-Archiver v1.0 mengonversi dump data publik dari Reddit, Voat, dan Ruqqus untuk membuat arsip HTML yang bisa dijelajahi
  • Menggunakan backend PostgreSQL untuk memproses dataset besar dengan memori tetap (4GB), serta menyediakan pencarian cepat melalui FTS berbasis indeks GIN
  • Output HTML memungkinkan pengurutan, pagination, dan penelusuran pohon komentar bahkan saat offline

Struktur inti alat pengarsipan Redd-Archiver

  • Menggunakan dump Reddit (.zst), Voat (SQL), dan Ruqqus (.7z) sebagai input
    • Integrasi multi-platform: menggabungkan 3 platform ke dalam satu arsip. Mendukung deteksi platform otomatis dan pencarian terpadu
    • Menyediakan skema jalur /r/, /v/, /g/ melalui flag CLI dan prefiks URL
  • Ketergantungan pada server dihilangkan dengan pendekatan pembuatan file HTML statis
  • Cukup buka index.html untuk menjelajah, tanpa perlu jaringan eksternal
    • Tata letak responsif yang mobile-first dan navigasi ramah sentuhan
    • Menyediakan indeks pengurutan berdasarkan skor, komentar, tanggal, serta pagination
    • Interaksi berbasis CSS tanpa JavaScript
  • Konfigurasi PostgreSQL FTS mendukung full-text search terpadu lintas platform
    • Dapat difilter berdasarkan kata kunci, penulis, tanggal, skor, dan lainnya
  • Menyediakan REST API yang mencakup kueri posting, komentar, pengguna, subreddit, dan agregasi
  • Termasuk server MCP yang memungkinkan alat AI mengajukan kueri langsung ke arsip
    • Di Claude Desktop atau Claude Code, pengguna dapat menjalankan kueri posting, komentar, pengguna, dan pencarian
  • Mampu menangani puluhan juta posting per instance
  • Dengan struktur PostgreSQL, penggunaan memori tetap konstan terlepas dari ukuran data
  • Untuk keseluruhan 2.38B posting, disarankan menjalankan beberapa instance terpisah berdasarkan topik
  • Diimplementasikan dengan Python, PostgreSQL, Jinja2, dan Docker (memanfaatkan Claude Code sebagai bantuan pengembangan secara umum)

Skenario deployment dan operasional

  • Mendukung penjelajahan offline berbasis drive USB atau folder lokal
  • Lokal/homelab: dapat dijalankan dalam lingkungan HTTP atau Tor dengan satu perintah
  • HTTPS produksi: pengaturan sertifikat Let’s Encrypt otomatis (sekitar 5 menit)
  • Tor hidden service: akses melalui alamat .onion tanpa port forwarding
  • Static hosting: dapat diunggah ke GitHub Pages atau Codeberg Pages (tanpa fitur pencarian)
  • Deployment berbasis Docker: konfigurasi sepenuhnya otomatis termasuk PostgreSQL
    • Mendukung penjelajahan offline, server pencarian lokal, serta mode Tor/HTTPS secara bersamaan

Informasi publik

1 komentar

 
GN⁺ 2026-01-16
Komentar Hacker News
  • Ini cara yang keren untuk self-host arsip
    Secara pribadi, saya berharap ada plugin yang otomatis memulihkan komentar yang dihapus atau ditimpa bot ke versi aslinya
    Salah satu alasan Reddit makin sulit dipakai belakangan ini adalah karena setengah dari tautan lama sudah berubah menjadi komentar tak berguna akibat penimpaan sebagai bentuk protes
    Ironisnya, versi aslinya tetap tersimpan di arsip untuk pelatihan AI, tetapi dari sudut pandang pengguna justru jadi tidak bisa menemukan hal seperti solusi driver printer dari 2 tahun lalu

    • Sebenarnya itu tidak benar-benar ironis. Sebagian besar penghapusan komentar skala besar bukan karena protes terhadap pelatihan LLM, melainkan boikot atas Reddit yang menutup API
      Membuat situs menjadi kurang berguna memang tujuan mereka, dan inti protesnya adalah mendorong pengguna untuk pergi
    • Membagikan tautan ke proyek terkait reddit-uncensored
    • Saya juga sering melihat komentar hilang, tetapi jika penulisnya memang tidak lagi ingin ikut diskusi publik, saya menghormati pilihan itu
      Saya tidak merasa perlu membongkar arsip untuk meniadakan keputusan tersebut. Tinggal lanjut saja
  • Datanya bisa diunduh lewat torrent
    Tautan: repositori redd-archiver

  • Ini proyek yang sangat keren
    Selain PushShift, ada juga arsip lain — misalnya Arctic Shift atau PullPush yang menyediakan dataset berbeda
    Postingan atau komentar yang tercakup bisa berbeda tergantung cakupan permintaan penghapusan

  • Saya jadi berpikir apakah data ini bisa dipakai untuk me-seed ulang media sosial terdesentralisasi
    Semacam mem-fork sebuah proyek

    • Mereka sudah membuat tooling untuk registry instance dan leaderboard berbasis tim
      API-nya juga mendukung ini sehingga arsip bisa di-host bersama secara terdesentralisasi
  • Proyek yang sangat menarik
    Yang saya penasaran adalah apakah dataset Pushshift diperbarui secara berkala, atau hanya snapshot dari satu titik waktu tertentu
    Kalau self-host, saya ingin tahu apakah data baru perlu diunduh ulang secara berkala

    • Data sampai Desember 2025 sudah dirilis, dan biasanya ada rilis baru setiap bulan
      watchful1 sedang membagi dan memproses ulang data, dan ke depannya akan mengambil dump Arctic Shift untuk mendukung pembaruan bulanan
      Tautan terkait:
  • Saya juga sedang mengerjakan proyek serupa, dan sudah mengunggah data Reddit dari Pushshift ke Hugging Face Datasets
    Saat seed torrent lemah, file individual bisa langsung diunduh dari huggingface.co/datasets/nick007x/pushshift-reddit
    Berguna bagi orang yang ingin menguji data bulanan atau hanya subreddit tertentu

  • Saya mencoba menjalankan lingkungan lokal dengan Docker Compose, tetapi gagal
    Tidak ada file .env.example, dan meskipun variabel lingkungan diatur manual tetap muncul masalah path volume
    Sepertinya masih perlu sedikit dirapikan

    • Berkat masukan itu, mereka menambahkan file contoh yang sempat hilang, dan juga memperbarui dokumentasi dengan langkah mkdir
      Commit terkait: 0bb1039, c3754ea
  • Saya penasaran apakah ini bisa diintegrasikan dengan aplikasi Apollo yang sudah mati untuk memulihkan satu titik waktu dari Reddit lama

    • Karena API mendukung berbagai integrasi, tampaknya ada kemungkinan
  • Saya tidak ingin menyimpan seluruh Reddit di komputer saya
    Akan bagus kalau bisa memilih subreddit tertentu saja

    • Torrent tersebut berisi data 40 ribu subreddit teratas
      watchful1 sudah membagi datanya per subreddit sehingga Anda bisa mengunduh hanya bagian yang diinginkan
  • Saya ingin tahu apakah ada cara untuk memeriksa apakah subreddit yang dijadikan privat 2–3 tahun lalu termasuk dalam dump data