1 poin oleh GN⁺ 2025-08-19 | 1 komentar | Bagikan ke WhatsApp
  • Seiring meningkatnya serangan terhadap misi terbaru, penguatan keamanan infrastruktur dan operasional sedang dilakukan
  • Sejak dimulai pada 2022, mereka telah dengan aman melestarikan dan membagikan puluhan juta buku, makalah, majalah, surat kabar, dan materi lainnya
  • Melalui scraping skala besar, mereka memperoleh metadata dalam jumlah besar dari WorldCat, Google Books, dan lainnya untuk membantu mengidentifikasi materi yang belum terkumpul
  • Melalui kemitraan dengan LibGen, Z-Library, dan lainnya, mereka memperoleh puluhan juta materi tambahan, meski menyesalkan hilangnya sebagian mitra
  • Terhadap situs baru seperti WeLib, mereka menjaga hubungan secara hati-hati dan menyarankan untuk tidak menggunakannya karena kontribusinya ke komunitas dinilai kurang

Situasi terbaru dan respons tim

  • Baru-baru ini, serangan yang menargetkan misi Anna's Archive semakin meningkat
  • Sebagai tanggapan, langkah penguatan keamanan infrastruktur dan operasional sedang dijalankan
  • Menjaga warisan pengetahuan umat manusia tetap aman adalah upaya yang tetap layak untuk terus diperjuangkan

Aktivitas pembebasan dan penyimpanan materi

  • Sejak dimulai pada 2022, mereka telah mengumpulkan puluhan juta buku, makalah ilmiah, majalah, surat kabar, dan berbagai jenis konten lainnya
  • Materi-materi ini kini terlindungi dari berbagai ancaman seperti bencana alam, perang, dan pemotongan anggaran
  • Berkat upaya semua pihak yang ikut mendistribusikan materi melalui torrent, kekhawatiran akan hilangnya materi telah sangat berkurang

Scraping skala besar dan perolehan metadata

  • Anna's Archive secara terorganisir melakukan scraping skala besar dari IA Controlled Digital Lending, HathiTrust, dan DuXiu
  • Mereka berhasil mengamankan file materi dalam jumlah puluhan juta
  • Mereka juga membangun koleksi metadata buku yang sangat besar dari WorldCat, Google Books, dan lainnya
  • Metadata yang diperoleh digunakan untuk mengidentifikasi buku yang belum masuk ke dalam koleksi, serta untuk strategi prioritas akuisisi materi langka

Komunitas, kolaborasi, dan pengembangan baru

  • Bekerja sama dengan mitra kolaborasi seperti fork LibGen, STC/Nexus, dan Z-Library, mereka memperoleh puluhan juta file tambahan
  • Para mitra sangat membantu misi ini, termasuk dengan melakukan mirror file
  • Namun, mereka juga menganggap hilangnya salah satu fork LibGen sebagai hal yang disayangkan

Proyek baru dan hal yang perlu diperhatikan

  • Baru-baru ini, muncul proyek baru bernama WeLib
    • Proyek ini melakukan mirror atas sebagian besar koleksi arsip dan menggunakan fork dari codebase Anna’s Archive
    • Beberapa perbaikan antarmuka pengguna dari WeLib diadopsi dan diterapkan
    • Namun, tidak ada pembagian koleksi baru maupun peningkatan pada codebase, sehingga komitmennya terhadap kontribusi pada ekosistem dinilai kurang
    • Karena itu, disarankan untuk berhati-hati dalam menggunakan WeLib
  • Selain itu, secara internal terdapat ratusan terabyte koleksi baru yang sudah disiapkan di server dan menunggu untuk diproses

Permintaan relawan dan dukungan

  • Siapa pun dapat berpartisipasi dalam proyek melalui halaman relawan dan donasi

  • Semuanya dijalankan dengan anggaran kecil, sehingga bantuan sekecil apa pun sangat berarti

  • Mereka juga mendorong upaya berkelanjutan untuk melindungi dan membebaskan warisan pengetahuan di masa depan

  • Anna dan seluruh tim (merujuk pada komunitas Reddit)

1 komentar

 
GN⁺ 2025-08-19
Komentar Hacker News
  • Buku yang saya beli biasanya saya pilih lewat Anna's Archive, komik dari readComicsOnline, dan novel grafis Eropa dari #WONTTELL; saya pelanggan tetap yang paling sering mampir ke tiga toko offline itu. Alih-alih membeli yang sedang tren karena iklan, saya mencari habis-habisan hanya untuk menemukan karya yang benar-benar bagus. Kadang pegawai toko sampai repot harus memesan buku langka yang saya temukan secara online. Saya penasaran apakah saya pengecualian, tetapi layanan seperti ini menjaga kebebasan saya untuk memilih.

    • Ini masalah yang rumit. Dulu saya aktif di kelompok rilisan film, dan sebagian besar anggotanya punya koleksi VHS/DVD jauh lebih banyak daripada orang biasa. Pekerjaan seperti itu memang butuh banyak usaha dan waktu. Orang yang cuma mengunduh saja lebih beragam; sebagian tinggal di luar negeri sehingga tidak bisa menonton rilisan domestik, dan sebagian lagi bahkan bangga tidak pernah membeli media sama sekali.

    • Situasinya mirip. Berkat Anna's Archive, saya bisa mencari bahan dengan jauh lebih nyaman daripada di perpustakaan sekolah. Bisa mencari dari rumah, mengambil informasi yang dibutuhkan, lalu menghapusnya. Saya bisa mengecek isinya dulu, lalu kalau memang benar-benar bagus saya beli untuk koleksi. Saya memang tidak membeli buku lebih banyak dari sebelumnya, tetapi tingkat kepuasan saya jauh lebih tinggi. Sebaliknya, berkat situs unggahan, saya jadi menemukan banyak film bagus yang sebelumnya tidak pernah saya dengar, sehingga sekarang saya membeli film jauh lebih banyak daripada dulu.

    • Industri pembajakan komik Prancis mendistribusikan rilisan dengan jeda sekitar 6 bulan. Skalanya kecil, jadi aturan ini cukup berjalan. Berkat itu saya jadi tertarik pada komik, dan kalau ada karya yang saya suka, saya dengan senang hati membelinya saat rilis lalu menghapus DRM untuk koleksi pribadi. Sebagian besar unduhan saya lebih mirip kegiatan mengoleksi/mengarsipkan, dan kalau saya benar-benar menikmati sesuatu sampai tamat, saya mendukung penulisnya.

    • Saya juga persis sama. Kalau sebuah seri terlihat menarik, saya biasanya ambil jilid pertama dulu lalu baca sekitar sepertiganya, dan kalau memang bagus saya beli untuk dibaca nanti. Saya membeli sekitar 3-4 buku per bulan (kalau bisa lebih suka drm free epub), dan sekitar 10 novel grafis Eropa per bulan (hanya beli versi cetak). Saya juga konsumen berat.

    • Dulu saya pernah mengikuti game indie lama, dan pengembangnya ingin memberikan pengalaman tanpa DRM. Ada juga fitur online seperti leaderboard, tetapi mereka kaget menemukan jauh lebih banyak akun yang terhubung online dibanding jumlah penjualan sebenarnya. Suasananya lalu berubah menjadi para pengembang memohon di deskripsi fitur agar orang tidak memakai salinan bajakan dan membeli versi asli. Pada akhirnya game itu memang populer, tetapi karena terlalu banyak salinan bajakan dan terlalu sedikit orang yang membayar, timnya menghentikan proyek tersebut. Setiap kali topik pembajakan muncul, selalu banyak orang yang membenarkan tindakan mereka dengan mengatakan bahwa mereka mengonsumsi lebih banyak daripada rata-rata, tetapi kalau melihat data statistik nyata, mayoritas alasannya ya karena bisa memakainya gratis.

  • Para pengelola shadow library memberi kontribusi besar bagi umat manusia, jadi pantas mendapat Nobel; Satoshi juga pasti akan bangga.

    • Hal yang akan membuat Satoshi bangga adalah bahwa shadow library bisa didukung tanpa takut sensor, dan bahkan satu entri saja sudah bisa dihitung sebagai sebuah daftar.

    • aaronsw mungkin juga akan bangga.

    • Dia seharusnya bisa ikut menyumbang beberapa koin; bagi dia itu cuma recehan.

  • Mereka menyediakan daftar torrents agar siapa pun bisa ikut serta dalam pelestarian jangka panjang dengan melakukan seeding https://annas-archive.org/torrents

    • Cukup mengejutkan bahwa torrent berbasis i2p ternyata masih belum tersebar luas sehingga situs seperti ini tidak menawarkannya sebagai opsi. Saya rasa banyak orang tidak bisa berkontribusi karena beban hukum, dan i2p bisa membantu.

    • Mengesankan bahwa sci-hub sekitar 90TB, sementara libgen-non-fiction sekitar 77.5TB. Keduanya benar-benar arsip yang wajib dilindungi karena memuat pengetahuan ilmiah inti seperti makalah dan buku teks. Saya sendiri menyimpan sekitar 16TB di server rumah, tetapi memperluas ke skala 200TB bukan hal sepele dari sisi perangkat dan biaya (12 disk 16TB saja sekitar 2200 dolar). Kalau memperhitungkan redundansi data dan perangkat keras server, dengan sekitar 5 ribu dolar kita bisa meng-cache hampir seluruh pengetahuan ilmiah utama yang telah dikumpulkan umat manusia. Menariknya, kapasitas repositori seperti ini belakangan hampir tidak bertambah; scihub juga berhenti diperbarui sejak 2022, dan jurnal-jurnal berkualitas rendah yang belakangan bertambah pun saya rasa tingkat kepentingannya lebih rendah.

  • Saat membaca seri buku di perpustakaan, saya kesal karena jilid 3 atau 4 tidak ada; mungkin hilang atau rusak. Saya sempat berpikir untuk membelinya sendiri di toko buku bekas lalu menyumbangkannya, tetapi edisi baru harganya naik dan nuansanya juga berbeda, jadi setelah dipikir-pikir saya urungkan. Akhirnya saya mendapatkannya dari Anna’s Archive. Beberapa jilid terakhir seri itu juga tidak ada di perpustakaan (mungkin dipinjam seseorang lalu tidak pernah dikembalikan, atau memang sejak awal tidak ada). Saya hanya ingin menamatkan seluruh karya penulis ini, dan untuk buku yang benar-benar saya suka, saya bahkan sudah membelinya dua kali dalam bentuk cetak dan audiobook. Dulu teman-teman saya tergila-gila mengoleksi buku, tetapi saya cenderung hanya menyimpan buku yang akan saya baca ulang. Kalau muncul dorongan untuk menuntaskan semuanya, saya menyiasatinya lewat perpustakaan atau ebook. Makin bertambah usia, makin terasa keberadaan buku dan keterbatasan hidup saya sendiri. Bahkan kalau nanti pensiun dan membaca 3-4 buku seminggu pun, saya sudah menimbun lebih banyak buku daripada yang bisa saya baca seumur hidup. Buku baru dan suara baru juga terus bermunculan. Terakhir saya membaca ulang Dune lalu menjualnya ke toko buku bekas, dan kalau membacanya lagi mungkin saya akan memilih versi audiobook.

  • Saya rasa bagian yang mengatakan "Anna’s Archive mendapatkan puluhan juta file dari IA Controlled Digital Lending" kalau dilihat secara keseluruhan tidak terlalu membantu.

    • Ini penyebutan yang sangat abu-abu dan pada akhirnya pasti harus dibahas di pengadilan.

    • Anna's Archive terlihat sangat egois ketika dengan sembrono membanggakan bahwa mereka juga melakukan hal seperti ini, tanpa memikirkan konsekuensi apa pun.

    • Saya tidak paham kenapa itu dianggap masalah; memang tujuan mereka dari awal adalah mengumpulkan buku.

  • Saya rasa tempat seperti Anna's Archive adalah salah satu hal baik terakhir yang tersisa di internet.

    • Saya penasaran bagaimana mereka mendapatkan pendanaan dan bagaimana mereka menjaga situsnya tetap bertahan. Rasanya perusahaan besar dan negara pasti ingin menyingkirkan situs seperti ini.

    • Saya setuju bahwa ini salah satu hal baik terakhir yang tersisa (yang terakhir, tapi setidaknya bukan yang paling kecil).

  • Saya memuji tim proyek ini. Saya terkesan karena UI-nya tampak membaik dalam setahun terakhir. Masalah yang tersisa adalah bagaimana layanan ini bisa terus bertahan dan tetap dapat diakses. Saya penasaran seberapa besar usaha yang dibutuhkan, dan bagaimana mereka bisa bertahan di bawah serangan seperti ini.

    • Dalam 2-5 hari terakhir ada pembaruan UI besar. Sedikit disayangkan, di mobile dulu hasil pencarian bisa dilihat jauh lebih efisien, tetapi desain baru hanya menampilkan sekitar 4-5 item per layar.
  • Sebagai referensi, situs ini juga cukup berguna https://open-slum.org/

    • Situsnya tidak bisa diakses; saya ingin tahu isinya apa dan kenapa berguna.

    • Situs ini tampaknya adalah instance Uptime Kuma. Uptime Kuma adalah proyek open source yang kuat untuk monitoring dan dashboarding https://github.com/louislam/uptime-kuma

  • Agak lucu bahwa warga mendukung tempat seperti Anna's Archive, sementara pemerintah menentangnya; terasa seperti bukti elitisme.

    • Itu bukan hal lucu atau aneh; sudut pandang pihak yang benar-benar terkait, yaitu penulis, hilang dari situ. Saya penasaran seberapa puas para penulis yang bukunya ada di Anna’s Archive. Secara pribadi saya positif terhadap Anna’s Archive, sci-hub, dan sejenisnya karena menurut saya masyarakat secara keseluruhan akan diuntungkan kalau lebih banyak orang membaca buku. Tetapi dalam sistem yang ada sekarang, tetap ada banyak pertimbangan soal kompensasi, hukum, dan sebagainya.

    • Saya penasaran apa pendapat para penulis.

  • Saya penasaran apakah Anna's Archive atau situs serupa menyediakan satu set PDF lengkap The New York Times secara penuh (versi sebelum 1930) atau surat kabar lainnya. Saat ini bahkan materi domain publik pun terkurung di situs tertutup seperti Newspapers.com, atau sepenuhnya tidak bisa dicari seperti Google News/koran versi lama. Saya berharap persaingan untuk mendapatkan data pelatihan AI memunculkan arsip baru yang lebih terbuka dan punya fitur penjelajahan berbasis AI dibanding situs lama yang berbayar atau sudah ditinggalkan. Sebagiannya memang bisa didapat dari Internet Archive dan semacamnya, tetapi yang benar-benar dibutuhkan adalah fitur pencarian berbasis AI.

    • Beberapa koran lama NYT bisa ditemukan di tautan https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D, meski tidak bisa diunduh sekaligus sebagai satu set PDF lengkap. Namun, Anda bisa mencari PDF individual lewat torrent Anna’s Archive lalu menggabungkannya. Untuk pencarian berbasis AI, kalau ada waktu dan kemauan, artikel-artikel NYT lama bisa di-OCR menjadi teks lalu dimasukkan ke sesuatu seperti LLM agar penjelajahan berbasis makna menjadi mungkin. Idealnya, proyek seperti ini didanai oleh dana budaya publik sebagai riset akademik.