Google Books atau pemindaian penuh buku serupa ditawari hadiah $200.000 (2025)
(software.annas-archive.gl)- Anna’s Archive menawarkan hadiah $200.000 untuk memperoleh pemindaian penuh seluruh buku Google Books atau koleksi dengan skala serupa
- Saat ini akses ke Google Books berpusat pada cuplikan kecil di sekitar hasil pencarian, sehingga memperoleh pemindaian penuh dipandang sebagai tugas inti dari sudut pandang pengarsipan
- Jika menemukan metode yang dapat diskalakan, mereka meminta agar Anda menghubungi sejak tahap prototipe tanpa menunggu versi final
- Orang dengan akses internal ke Google juga termasuk sasaran, dan bahkan jika hanya mendapatkan teks OCR saja tanpa gambar, setengah dari hadiah tetap bisa dibayarkan
- Sasarannya tidak terbatas pada Google Books saja, tetapi juga berlaku untuk koleksi berskala besar lain yang mencakup buku langka yang dikumpulkan perusahaan AI dan pihak lain
Sasaran hadiah dan syarat partisipasi
- Anna’s Archive menawarkan hadiah $200,000 untuk memperoleh pemindaian penuh Google Books atau koleksi serupa
- Sebelum mulai, Anda harus membaca dengan cermat panduan bounties Anna’s Archive
- Google Books memiliki banyak buku hasil pemindaian, tetapi saat diakses lewat pencarian, yang terlihat hanya cuplikan kecil di sekitar hasil
- Jika menemukan metode yang punya potensi untuk diskalakan, mereka meminta agar Anda menghubungi lebih awal dengan prototipe tanpa menunggu sampai versi final
- Anna’s Archive dapat membantu pekerjaan perluasan setelahnya
- Orang yang bekerja di Google dan memiliki akses ke data tersebut juga termasuk dalam sasaran hadiah
- Mereka menulis bahwa $200,000 mungkin bukan jumlah yang besar, tetapi jika Anda bisa membawa keluar data tersebut, Anda akan disebut sebagai “arsiparis legendaris”
- Hadiah ini juga berlaku untuk koleksi berskala serupa selain Google Books
- Sebagai contoh, mereka menyebut koleksi yang dikumpulkan perusahaan AI
- Terutama jika itu adalah koleksi yang mencakup cukup banyak buku langka
Skala dan metode pengiriman yang dirangkum dalam komentar
- Salah satu komentar menulis bahwa seluruh arsip, termasuk materi berhak cipta, berukuran sekitar 7PB, tetapi kemudian dikoreksi menjadi sekitar 1,5PB dan angka itu mencakup replika situs IUPUI
- Materi domain publik dan materi yang dibuka oleh penulis disebut berukuran sekitar 300TB
- Anna’s Archive menjawab bahwa mereka bersedia menambahkan hadiah terpisah jika belum ada scrape untuk materi domain publik dan materi yang dibuka penulis
- Bahkan jika yang dibawa keluar bukan gambar penuh melainkan hanya teks OCR, untuk tujuan hadiah ini mereka bisa membayar setengahnya
- Untuk metode pengiriman saat memperoleh data dalam jumlah besar, disebutkan SFTP atau metode serupa
- Judul isu diubah pada 7 Juni 2025 menjadi
Google Books (or similar) all book scans — $200,000 bounty
1 komentar
Opini Hacker News
Saya tinggal di negara tempat buku berbahasa Inggris sulit didapat, jadi pembelian online dari luar negeri punya terlalu banyak prosedur administratif dan pembatasan
Kalau bukan karena Anna's Archive dan Z-Library, saya mungkin tidak akan pernah membaca buku-buku yang membentuk diri saya sekarang, dan akan sulit mempertahankan semangat belajar
Saya juga berterima kasih kepada para penulis yang telah memberi saya pengetahuan meski saya belum bisa membayar harga bukunya
Pengetahuan tidak diciptakan dalam ruang hampa dan merupakan milik semua orang
Dulu ada penulis di Reddit yang pernah memposting statistik bahwa penjualan nyata bukunya ambruk setelah muncul di situs berbagi ilegal
Karena itu, terutama untuk buku pemrograman, saya berusaha membelinya kalau bisa, dan memakai PDF seperti pratinjau. Justru karena itu saya membeli jauh lebih banyak dibanding dulu
Tentu ceritanya berbeda jika Anda tinggal di wilayah tempat membeli memang tidak mungkin, tetapi saat memuji situs-situs seperti ini orang cenderung hanya melihat sisi positifnya
Ini alat penting untuk mengirim EPUB ke Kobo
https://SourceLibrary.org memiliki sekitar 16.000 terjemahan buku langka, dan sebagian besar merupakan terjemahan pertama
Ada 50.000 buku yang sudah diarsipkan dan akan diterjemahkan jika ada dana, jumlah tokennya lebih besar daripada Wikipedia bahasa Inggris, dan skalanya sekitar 0,75PB
Saya tidak tahu apakah ini memenuhi syarat untuk hadiah, tetapi saya ingin membagikannya dan sedang mencari sponsor kecil maupun besar untuk membantu menerjemahkan literatur Renaisans
Sulit langsung memahami apa saja yang sudah diarsipkan seluruhnya, tetapi saya punya teman-teman sejarawan akademik yang mungkin tertarik pada bidang tertentu dan bisa membantu memverifikasi beberapa bahasa yang sulit
Saya penasaran apakah ada pencarian berdasarkan wilayah atau bahasa
Saya juga penasaran apakah Anda sudah pernah menghubungi kalangan sejarawan mengenai proyek ini. Mahasiswa doktoral tampaknya juga bisa menemukan topik riset dari sini
Saat saya melihat linimasa https://sourcelibrary.org/timeline, muncul error
Kemarin Anna's Archive benar-benar membantu
Selama beberapa hari saya mencari file ZIP dari CD yang disertakan dengan buku pemrograman awal 2000-an; semua penjual barang bekas bilang CD-nya tidak ada, pencarian web juga tidak menemukan apa-apa, dan LLM pun gagal menemukannya
ChatGPT terus bilang ada di archive, tetapi ternyata tidak ada. Saya lalu coba ke AA untuk berjaga-jaga, dan ternyata file ZIP untuk edisi 1 dan 2 sama-sama ada. Benar-benar seperti penyelamat
Saya penasaran berapa lama lagi sampai ada hadiah untuk pengarsipan internet
Karena Cloudflare CAPTCHA, internet bagi saya hampir tidak bisa dipakai, dan sepertinya akan makin buruk ke depan
Lebih baik menjelajahi salinan di situs seperti archive.is atau mengunduh lewat torrent. Yang terakhir juga jauh lebih baik untuk privasi, dan saya toh sudah memakai pemblokir iklan
Bisa jadi juga smart TV. Jika penyebabnya ditemukan lalu disingkirkan, reputasi IP mungkin membaik sehingga CAPTCHA akan lebih jarang muncul
Ada konflik kepentingan kecil seperti ini
Saya penasaran siapa yang berada di balik Anna's Archive. Tampaknya ada banyak orang berbahasa Inggris di tim dan forumnya
Bagaimanapun, menurut saya selama membeli bukan berarti memiliki, tidak ada yang salah
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
Dan kalau membeli buku fisik, pembelian jelas berarti kepemilikan, jadi untuk buku kalimat itu terasa agak kurang tepat
Yang lebih mengejutkan adalah betapa sedikitnya alternatif seperti ini. Bahkan setelah Facebook dan pihak lain memerangi LibGen dan LibGen tumbang, alternatifnya ternyata sangat sedikit, dan Anna's Archive menjadi salah satu dari sedikit pilihan yang ada
Saya masih tidak tahu persis apa yang terjadi pada LibGen, tetapi sejak serangan itu kondisinya tampak seperti praktis setengah menghilang
Pada kalimat “sebelum mengerjakan bounty, bacalah [this] dengan saksama”, [this] tertaut ke alamat .li dan mengarah ke tempat berbahaya
Alamat yang benar seharusnya https://annas-archive.gl/volunteering#bounties
Jika ada orang yang sekarang khawatir akan dipecat dari Google, ini mungkin bisa jadi rencana cadangan
Bahkan di antara segelintir orang yang punya izin akses, jika mulai mengunduh hanya sebagian sangat kecil dari konten pun, kemungkinan besar sistem otomatis akan mendeteksinya
Tugas bounty menarik lain yang mereka tawarkan: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Pembelian seluruh dataset MARC Library of Congress — bounty 3.000 dolar
Halaman Wikipedia bahasa Inggris untuk lembaga terkait — hingga 100 dolar per halaman baru
Internet Archive Digital Lending — 5.000 dolar per 1 juta PDF
Versi teks dari seluruh perpustakaan — 20.000 dolar, dll.
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Saya penasaran bagaimana masa depan pembajakan dan hak cipta
Situasi yang berpusat pada model peminjaman seperti sekarang tampak tidak berkelanjutan. Orang-orang biasa di sekitar kita pun sekarang sudah banyak yang tahu soal VPN dan NAS
Spotify, Netflix, Amazon, dan lainnya sempat menawarkan nilai yang lumayan baik untuk beberapa waktu, tetapi sekarang ketika penurunan kualitas layanan mulai makin nyata, mungkin sudah waktunya terjadi gelombang besar untuk kembali
Gemini kemungkinan besar sudah dilatih dengan buku-buku itu, jadi secara teori bisa saja mengeluarkan kembali beberapa kalimat apa adanya
Dalam gugatan yang dulu diajukan NYT terhadap OpenAI, contoh seperti itu juga pernah terungkap
Hanya saja ini bukan kompresi lossless; mereka mempertahankan bagian yang penting untuk menjalankan tugas prediksi token berikutnya, lalu menemukan cara meniru sisanya