4 poin oleh GN⁺ 2025-11-06 | 1 komentar | Bagikan ke WhatsApp
  • Anna’s Archive adalah mesin metapencarian shadow library untuk menemukan ebook bajakan dan berbagai materi, diluncurkan pada musim gugur 2022
  • Selama tiga tahun terakhir, karena laporan pelanggaran hak cipta dari penerbit dan penulis, Google telah menghapus 749 juta URL situs ini dari hasil pencarian
  • Ini setara dengan 5% dari seluruh URL terkait hak cipta yang pernah ditangani Google, dan skalanya jauh lebih besar dibanding The Pirate Bay
  • Lebih dari 1.000 pemegang hak seperti Penguin Random House dan John Wiley & Sons telah mengajukan permintaan DMCA, dan sekitar 10 juta URL baru dilaporkan setiap minggu
  • Meski terjadi penghapusan besar-besaran, domain utama Anna’s Archive masih dapat diakses dan situs tersebut masih mudah ditemukan di Google lewat pencarian nama situs

Ikhtisar Anna’s Archive

  • Anna’s Archive adalah mesin metapencarian yang memungkinkan pencarian terpadu di berbagai shadow library, dengan fungsi untuk menemukan buku dan materi bajakan
    • Diluncurkan pada musim gugur 2022, tepat setelah Z-Library ditindak oleh otoritas AS
    • Berawal dari tujuan untuk terus menyediakan buku dan makalah ‘gratis’ kepada publik
  • Dalam tiga tahun sejak diluncurkan, situs ini diblokir di beberapa negara, dan juga digugat di AS atas tuduhan pengambilan data WorldCat 2,2TB tanpa izin
  • Situs ini juga menjalankan aktivitas untuk mendukung akses data bagi para peneliti AI
Iklan

Penghapusan besar-besaran oleh Google

  • Google menghapus URL yang diduga melanggar hak cipta dari hasil pencarian berdasarkan permintaan pemegang hak
  • Untuk Anna’s Archive, total 784 juta URL telah dilaporkan, dan 749 juta di antaranya benar-benar dihapus
    • Sebagian tautan tidak diindeks oleh Google sehingga dikecualikan dari penghapusan
  • Sebagai perbandingan, The Pirate Bay memiliki 4,2 juta URL yang dihapus, sehingga skala Anna’s Archive jauh lebih besar
  • Situs ini mengoperasikan banyak subdomain per negara dan memiliki halaman dalam jumlah sangat besar, sehingga jumlah URL yang menjadi target penghapusan juga besar

Menyumbang 5% dari seluruh penghapusan hak cipta Google

  • Menurut laporan transparansi Google, sejak 2012 total 15,1 miliar URL pelanggaran hak cipta telah dilaporkan
    • Di antaranya, URL terkait Anna’s Archive mencakup 5% dari keseluruhan
  • Penguin Random House dan John Wiley & Sons merupakan pelapor utama, dan lebih dari 1.000 penerbit serta penulis telah mengajukan permintaan DMCA
  • Hingga kini, sekitar 10 juta URL baru masih terus dilaporkan setiap minggu
Iklan

Visibilitas di hasil pencarian

  • Karena penghapusan besar-besaran, kemunculan situs pada kata kunci terkait buku menurun
    • Banyak URL tidak lagi ditampilkan atau peringkat pencariannya turun
  • Namun, jika mencari langsung dengan nama ‘Anna’s Archive’, domain utamanya masih muncul di posisi atas
  • Terlepas dari tindakan Google, akses ke situs itu sendiri tidak diblokir

Respons industri penerbitan dan keterbatasannya

  • Karena sulit memblokir situs secara langsung, para penerbit terus mengajukan permintaan penghapusan ke platform pihak ketiga seperti Google
  • Meski ada tekanan hukum, domain utama seperti annas-archive.org, .li, dan .se masih tetap beroperasi
  • Naskah asli tidak menyebutkan adanya langkah lanjutan atau perubahan kebijakan tambahan

1 komentar

 
GN⁺ 2025-11-06
Komentar Hacker News
  • Mungkin terdengar aneh, tapi saya mendapati bahwa Yandex adalah mesin pencari yang cukup hebat untuk menemukan konten yang diturunkan karena permintaan DMCA
    Misalnya, saat ingin menonton film via streaming web yang tidak ada di Netflix, hasil pencariannya jauh lebih bagus
    Rasanya seperti memakai kembali Google tahun 2005

    • Saya mulai memakai Yandex beberapa tahun lalu untuk mencari infohash bittorrent
      Karena Google, Bing, dan DuckDuckGo sudah tidak lagi memberi hasil yang layak
      Sekarang yang terlihat cuma kecocokan sebagian pendek di tempat seperti penjelajah blockchain, dan saya tidak tahu apakah ini disengaja atau akibat percobaan fuzzy matching
      Bagaimanapun, untuk kegunaan ini hasilnya benar-benar gagal
    • Saya sudah mencoba banyak mesin pencari seperti Kagi, Startpage, Ecosia, DDG, dan semuanya memberi hasil yang lebih relevan daripada Google
      Google terlalu dipersonalisasi
    • Sebagai orang Ukraina, saya marah melihat Yandex berubah menjadi alat propaganda, tetapi sebagai insinyur saya tetap menghormati warisan riset puluhan tahun mereka dan teknologi pencarian mereka yang luar biasa
    • Sudah lama saya menguji kualitas mesin pencari seperti ini
      Mesin yang bagus akan menampilkan situs bajakan, dan mesin yang hebat akan menaruhnya di atas hasil palsu
      Tetapi makin hebat mesinnya, makin cepat ia menarik perhatian dan akhirnya dipaksa menghapus hasil-hasil itu
      Saat itu terjadi, artinya sudah waktunya mencari tempat lain
    • Lucunya, beberapa hari lalu istri saya menceritakan sejarah negaranya dan merekomendasikan film terkait, tapi film itu tidak muncul di Google, DDG, Bing, maupun Brave
      Namun di Yandex langsung muncul di tiga besar
      Sebagai catatan, DDG sekarang hampir sama dengan Google, bahkan sampai ada hasil bersponsor
  • Anna’s Archive tampaknya sudah memberi semua data yang dibutuhkan untuk pelatihan Gemini milik Google, jadi sekarang mereka berpura-pura situs itu tidak ada

    • Saya jadi penasaran apakah Anna’s Archive pernah menyusun informasi dunia dan membuatnya dapat diakses secara universal
    • Google secara sukarela mengelola log transparansi, dan kepatuhan DMCA hanyalah soal interpretasi hukum
      Sulit memahami kenapa komunitas online membangun teori konspirasi jahat dari hal ini
  • Google sekarang benar-benar melakukan pencarian lagi?
    Akhir-akhir ini merek chatbot yang saya pakai bisa menghindari 100 situs spam SEO dan menemukan informasi yang sama, jadi saya tidak tahu bagaimana Google bisa mengalahkan kenyamanan itu

    • Saya dengar chatbot kurang terpengaruh spam dibanding Google, tapi saya penasaran apakah itu benar
    • Saya ingat dulu memang ada masa ketika Google benar-benar melakukan pencarian
      (nama pengguna yang keren)
    • Chatbot tidak punya indeks berskala internet miliknya sendiri
      Pada akhirnya itu berarti Anda menyerahkan kemampuan menilai untuk memeriksa langsung sumber informasinya
    • Sekitar 25–90% tautan yang diberikan chatbot adalah halusinasi
      Atau pada akhirnya cuma menggantikan pencarian Google saja
    • AI berbasis LLM pada dasarnya rentan terhadap serangan manipulasi data
      AGI tingkat manusia yang sungguhan mungkin akan mendeteksi upaya seperti ini, tetapi chatbot saat ini belum mampu
      Artikel terkait: NYTimes - AI Chatbot Prompts and Manipulation
  • Saya sama sekali tidak melakukan pencarian yang mungkin membuat Google tidak nyaman
    Hal-hal seperti nomor seri, nomor telepon perusahaan, makalah, buku saya cari semuanya lewat Yandex atau Brave
    Apa pun yang dilakukan Google tidak penting bagi saya, karena memang tidak saya pakai

  • Saya berpikir harus mengunduh semua torrent z-archive sebelum Anna’s Archive menghilang
    Kalau PDF besar dan buku non-Inggris dikecualikan, sepertinya bisa dikompresi agar muat di dua drive 32TB
    https://annas-archive.org/torrents

    • Bukankah menghapus PDF besar itu kriteria yang terlalu sewenang-wenang?
      PDF sering besar karena masalah warna atau resolusi, bukan karena isinya
    • Saya dulu mengurangi ukuran dengan menurunkan DPI dan kedalaman warna lalu menggabungkannya kembali menjadi PDF
      Juga memungkinkan untuk mengidentifikasi otomatis beberapa edisi dari buku yang sama lalu menyisakan satu epub dan menghapus sisanya
    • Saya juga ingin membuat cadangan versi Inggris/Jerman/Prancis
      Hanya saja HDD dan sistem berkas jadi masalah, jadi mungkin saya harus membuat sendiri sesuatu seperti pemecah torrent
    • Saya membalik dan menyusun daftarnya dengan cara mengisi dari file kecil dulu
  • https://annas-archive.org

  • Saya hampir tidak pernah mengandalkan Google untuk menemukan konten di situs seperti ini
    Situsnya sendiri sudah terindeks dengan baik berdasarkan judul, penulis, format, tanggal, jadi pencarian bebas saja sudah cukup

    • Pencarian web seperti Google memang unggul dalam pencarian sinonim
      Misalnya, dengan mencari “a a a a ah ah ah ah dance song” pun ia bisa menemukan “Million Voices” dari Otto Knows
    • Tetapi saya penasaran apakah situs seperti ini memang tidak punya fitur pencarian teks penuh (full-text search)
      Saya juga ragu Google mengindeks isi penuh halaman Anna’s Archive
  • Setelah Library Genesis ditutup baru-baru ini, Anna’s Archive tampaknya menjadi repositori buku terakhir yang tersisa
    Saya penasaran apakah ada alternatif lain

    • Ada Open-Slum.org yang ditautkan dari Anna’s Archive
    • Untuk buku saya merekomendasikan WeLib.org, untuk audiobook AudiobookBay
  • Pawai menuju ketidakbergunaan Google terus berlanjut

    • Meski begitu, Google masih menguasai 97% kueri pencarian global
  • Lanskap pencarian web telah berubah total

    • Platform tertutup (walled garden) makin banyak, sehingga ada banyak wilayah yang tidak bisa diakses mesin pencari
    • Ada juga banyak data yang tidak bisa diakses karena pembatasan hukum
    • Sekarang bukan cuma Google; Yandex, Kagi, dan ChatGPT juga harus dipakai bersama
    • Saya juga memanfaatkan indeks buatan sendiri, Internet Places Database