Google menghapus 749 juta URL terkait Anna’s Archive dari hasil pencarian
(torrentfreak.com)- Anna’s Archive adalah mesin metapencarian shadow library untuk menemukan ebook bajakan dan berbagai materi, diluncurkan pada musim gugur 2022
- Selama tiga tahun terakhir, karena laporan pelanggaran hak cipta dari penerbit dan penulis, Google telah menghapus 749 juta URL situs ini dari hasil pencarian
- Ini setara dengan 5% dari seluruh URL terkait hak cipta yang pernah ditangani Google, dan skalanya jauh lebih besar dibanding The Pirate Bay
- Lebih dari 1.000 pemegang hak seperti Penguin Random House dan John Wiley & Sons telah mengajukan permintaan DMCA, dan sekitar 10 juta URL baru dilaporkan setiap minggu
- Meski terjadi penghapusan besar-besaran, domain utama Anna’s Archive masih dapat diakses dan situs tersebut masih mudah ditemukan di Google lewat pencarian nama situs
Ikhtisar Anna’s Archive
- Anna’s Archive adalah mesin metapencarian yang memungkinkan pencarian terpadu di berbagai shadow library, dengan fungsi untuk menemukan buku dan materi bajakan
- Diluncurkan pada musim gugur 2022, tepat setelah Z-Library ditindak oleh otoritas AS
- Berawal dari tujuan untuk terus menyediakan buku dan makalah ‘gratis’ kepada publik
- Dalam tiga tahun sejak diluncurkan, situs ini diblokir di beberapa negara, dan juga digugat di AS atas tuduhan pengambilan data WorldCat 2,2TB tanpa izin
- Situs ini juga menjalankan aktivitas untuk mendukung akses data bagi para peneliti AI
Penghapusan besar-besaran oleh Google
- Google menghapus URL yang diduga melanggar hak cipta dari hasil pencarian berdasarkan permintaan pemegang hak
- Untuk Anna’s Archive, total 784 juta URL telah dilaporkan, dan 749 juta di antaranya benar-benar dihapus
- Sebagian tautan tidak diindeks oleh Google sehingga dikecualikan dari penghapusan
- Sebagai perbandingan, The Pirate Bay memiliki 4,2 juta URL yang dihapus, sehingga skala Anna’s Archive jauh lebih besar
- Situs ini mengoperasikan banyak subdomain per negara dan memiliki halaman dalam jumlah sangat besar, sehingga jumlah URL yang menjadi target penghapusan juga besar
Menyumbang 5% dari seluruh penghapusan hak cipta Google
- Menurut laporan transparansi Google, sejak 2012 total 15,1 miliar URL pelanggaran hak cipta telah dilaporkan
- Di antaranya, URL terkait Anna’s Archive mencakup 5% dari keseluruhan
- Penguin Random House dan John Wiley & Sons merupakan pelapor utama, dan lebih dari 1.000 penerbit serta penulis telah mengajukan permintaan DMCA
- Hingga kini, sekitar 10 juta URL baru masih terus dilaporkan setiap minggu
Visibilitas di hasil pencarian
- Karena penghapusan besar-besaran, kemunculan situs pada kata kunci terkait buku menurun
- Banyak URL tidak lagi ditampilkan atau peringkat pencariannya turun
- Namun, jika mencari langsung dengan nama ‘Anna’s Archive’, domain utamanya masih muncul di posisi atas
- Terlepas dari tindakan Google, akses ke situs itu sendiri tidak diblokir
Respons industri penerbitan dan keterbatasannya
- Karena sulit memblokir situs secara langsung, para penerbit terus mengajukan permintaan penghapusan ke platform pihak ketiga seperti Google
- Meski ada tekanan hukum, domain utama seperti annas-archive.org, .li, dan .se masih tetap beroperasi
- Naskah asli tidak menyebutkan adanya langkah lanjutan atau perubahan kebijakan tambahan
1 komentar
Komentar Hacker News
Mungkin terdengar aneh, tapi saya mendapati bahwa Yandex adalah mesin pencari yang cukup hebat untuk menemukan konten yang diturunkan karena permintaan DMCA
Misalnya, saat ingin menonton film via streaming web yang tidak ada di Netflix, hasil pencariannya jauh lebih bagus
Rasanya seperti memakai kembali Google tahun 2005
Karena Google, Bing, dan DuckDuckGo sudah tidak lagi memberi hasil yang layak
Sekarang yang terlihat cuma kecocokan sebagian pendek di tempat seperti penjelajah blockchain, dan saya tidak tahu apakah ini disengaja atau akibat percobaan fuzzy matching
Bagaimanapun, untuk kegunaan ini hasilnya benar-benar gagal
Google terlalu dipersonalisasi
Mesin yang bagus akan menampilkan situs bajakan, dan mesin yang hebat akan menaruhnya di atas hasil palsu
Tetapi makin hebat mesinnya, makin cepat ia menarik perhatian dan akhirnya dipaksa menghapus hasil-hasil itu
Saat itu terjadi, artinya sudah waktunya mencari tempat lain
Namun di Yandex langsung muncul di tiga besar
Sebagai catatan, DDG sekarang hampir sama dengan Google, bahkan sampai ada hasil bersponsor
Anna’s Archive tampaknya sudah memberi semua data yang dibutuhkan untuk pelatihan Gemini milik Google, jadi sekarang mereka berpura-pura situs itu tidak ada
Sulit memahami kenapa komunitas online membangun teori konspirasi jahat dari hal ini
Google sekarang benar-benar melakukan pencarian lagi?
Akhir-akhir ini merek chatbot yang saya pakai bisa menghindari 100 situs spam SEO dan menemukan informasi yang sama, jadi saya tidak tahu bagaimana Google bisa mengalahkan kenyamanan itu
(nama pengguna yang keren)
Pada akhirnya itu berarti Anda menyerahkan kemampuan menilai untuk memeriksa langsung sumber informasinya
Atau pada akhirnya cuma menggantikan pencarian Google saja
AGI tingkat manusia yang sungguhan mungkin akan mendeteksi upaya seperti ini, tetapi chatbot saat ini belum mampu
Artikel terkait: NYTimes - AI Chatbot Prompts and Manipulation
Saya sama sekali tidak melakukan pencarian yang mungkin membuat Google tidak nyaman
Hal-hal seperti nomor seri, nomor telepon perusahaan, makalah, buku saya cari semuanya lewat Yandex atau Brave
Apa pun yang dilakukan Google tidak penting bagi saya, karena memang tidak saya pakai
Saya berpikir harus mengunduh semua torrent z-archive sebelum Anna’s Archive menghilang
Kalau PDF besar dan buku non-Inggris dikecualikan, sepertinya bisa dikompresi agar muat di dua drive 32TB
https://annas-archive.org/torrents
PDF sering besar karena masalah warna atau resolusi, bukan karena isinya
Juga memungkinkan untuk mengidentifikasi otomatis beberapa edisi dari buku yang sama lalu menyisakan satu epub dan menghapus sisanya
Hanya saja HDD dan sistem berkas jadi masalah, jadi mungkin saya harus membuat sendiri sesuatu seperti pemecah torrent
https://annas-archive.org
Saya hampir tidak pernah mengandalkan Google untuk menemukan konten di situs seperti ini
Situsnya sendiri sudah terindeks dengan baik berdasarkan judul, penulis, format, tanggal, jadi pencarian bebas saja sudah cukup
Misalnya, dengan mencari “a a a a ah ah ah ah dance song” pun ia bisa menemukan “Million Voices” dari Otto Knows
Saya juga ragu Google mengindeks isi penuh halaman Anna’s Archive
Setelah Library Genesis ditutup baru-baru ini, Anna’s Archive tampaknya menjadi repositori buku terakhir yang tersisa
Saya penasaran apakah ada alternatif lain
Pawai menuju ketidakbergunaan Google terus berlanjut
Lanskap pencarian web telah berubah total