Google Books atau pemindaian penuh buku serupa ditawari hadiah $200.000 (2025)

(software.annas-archive.gl)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Anna’s Archive menawarkan hadiah $200.000 untuk memperoleh pemindaian penuh seluruh buku Google Books atau koleksi dengan skala serupa
Saat ini akses ke Google Books berpusat pada cuplikan kecil di sekitar hasil pencarian, sehingga memperoleh pemindaian penuh dipandang sebagai tugas inti dari sudut pandang pengarsipan
Jika menemukan metode yang dapat diskalakan, mereka meminta agar Anda menghubungi sejak tahap prototipe tanpa menunggu versi final
Orang dengan akses internal ke Google juga termasuk sasaran, dan bahkan jika hanya mendapatkan teks OCR saja tanpa gambar, setengah dari hadiah tetap bisa dibayarkan
Sasarannya tidak terbatas pada Google Books saja, tetapi juga berlaku untuk koleksi berskala besar lain yang mencakup buku langka yang dikumpulkan perusahaan AI dan pihak lain

Sasaran hadiah dan syarat partisipasi

Anna’s Archive menawarkan hadiah $200,000 untuk memperoleh pemindaian penuh Google Books atau koleksi serupa
Sebelum mulai, Anda harus membaca dengan cermat panduan bounties Anna’s Archive
Google Books memiliki banyak buku hasil pemindaian, tetapi saat diakses lewat pencarian, yang terlihat hanya cuplikan kecil di sekitar hasil
Jika menemukan metode yang punya potensi untuk diskalakan, mereka meminta agar Anda menghubungi lebih awal dengan prototipe tanpa menunggu sampai versi final
- Anna’s Archive dapat membantu pekerjaan perluasan setelahnya
Orang yang bekerja di Google dan memiliki akses ke data tersebut juga termasuk dalam sasaran hadiah
- Mereka menulis bahwa $200,000 mungkin bukan jumlah yang besar, tetapi jika Anda bisa membawa keluar data tersebut, Anda akan disebut sebagai “arsiparis legendaris”
Hadiah ini juga berlaku untuk koleksi berskala serupa selain Google Books
- Sebagai contoh, mereka menyebut koleksi yang dikumpulkan perusahaan AI
- Terutama jika itu adalah koleksi yang mencakup cukup banyak buku langka

Skala dan metode pengiriman yang dirangkum dalam komentar

Salah satu komentar menulis bahwa seluruh arsip, termasuk materi berhak cipta, berukuran sekitar 7PB, tetapi kemudian dikoreksi menjadi sekitar 1,5PB dan angka itu mencakup replika situs IUPUI
Materi domain publik dan materi yang dibuka oleh penulis disebut berukuran sekitar 300TB
Anna’s Archive menjawab bahwa mereka bersedia menambahkan hadiah terpisah jika belum ada scrape untuk materi domain publik dan materi yang dibuka penulis
Bahkan jika yang dibawa keluar bukan gambar penuh melainkan hanya teks OCR, untuk tujuan hadiah ini mereka bisa membayar setengahnya
Untuk metode pengiriman saat memperoleh data dalam jumlah besar, disebutkan SFTP atau metode serupa
Judul isu diubah pada 7 Juni 2025 menjadi Google Books (or similar) all book scans — $200,000 bounty

1 komentar

GN⁺ 4 jam lalu

Opini Hacker News

Saya tinggal di negara tempat buku berbahasa Inggris sulit didapat, jadi pembelian online dari luar negeri punya terlalu banyak prosedur administratif dan pembatasan
Kalau bukan karena Anna's Archive dan Z-Library, saya mungkin tidak akan pernah membaca buku-buku yang membentuk diri saya sekarang, dan akan sulit mempertahankan semangat belajar
Saya juga berterima kasih kepada para penulis yang telah memberi saya pengetahuan meski saya belum bisa membayar harga bukunya
- Setengah bercanda setengah serius, orang bisa bilang berarti seluruh hidup saya sekarang ditopang hasil kejahatan, tapi pengetahuan harus bebas
  Pengetahuan tidak diciptakan dalam ruang hampa dan merupakan milik semua orang
- Saya paham posisi itu, tetapi jika penulis tidak bisa menghasilkan uang, kemungkinan besar banyak dari buku-buku itu tidak akan pernah ada sejak awal
  Dulu ada penulis di Reddit yang pernah memposting statistik bahwa penjualan nyata bukunya ambruk setelah muncul di situs berbagi ilegal
  Karena itu, terutama untuk buku pemrograman, saya berusaha membelinya kalau bisa, dan memakai PDF seperti pratinjau. Justru karena itu saya membeli jauh lebih banyak dibanding dulu
  Tentu ceritanya berbeda jika Anda tinggal di wilayah tempat membeli memang tidak mungkin, tetapi saat memuji situs-situs seperti ini orang cenderung hanya melihat sisi positifnya
- Syukurlah lokasinya tertulis di nama pengguna. Belakangan ini yang paling mengganggu saya di internet adalah orang berkata “di negara kami” tanpa pernah mengungkap negara mana sampai akhir
- https://send.djazz.se/
  Ini alat penting untuk mengirim EPUB ke Kobo
https://SourceLibrary.org memiliki sekitar 16.000 terjemahan buku langka, dan sebagian besar merupakan terjemahan pertama
Ada 50.000 buku yang sudah diarsipkan dan akan diterjemahkan jika ada dana, jumlah tokennya lebih besar daripada Wikipedia bahasa Inggris, dan skalanya sekitar 0,75PB
Saya tidak tahu apakah ini memenuhi syarat untuk hadiah, tetapi saya ingin membagikannya dan sedang mencari sponsor kecil maupun besar untuk membantu menerjemahkan literatur Renaisans
- Hasilnya indah, jawabannya juga tepat dan berkesan. Pendanaannya tampak mungkin dilakukan dengan model seperti API riset berbayar
- Kelihatannya menarik
  Sulit langsung memahami apa saja yang sudah diarsipkan seluruhnya, tetapi saya punya teman-teman sejarawan akademik yang mungkin tertarik pada bidang tertentu dan bisa membantu memverifikasi beberapa bahasa yang sulit
  Saya penasaran apakah ada pencarian berdasarkan wilayah atau bahasa
  Saya juga penasaran apakah Anda sudah pernah menghubungi kalangan sejarawan mengenai proyek ini. Mahasiswa doktoral tampaknya juga bisa menemukan topik riset dari sini
  Saat saya melihat linimasa https://sourcelibrary.org/timeline, muncul error
- Saya penasaran berapa anggaran yang dibutuhkan untuk sampai sejauh ini. Jumlah token-nya luar biasa besar, dan sepertinya Anda memakai Gemini Flash
Kemarin Anna's Archive benar-benar membantu
Selama beberapa hari saya mencari file ZIP dari CD yang disertakan dengan buku pemrograman awal 2000-an; semua penjual barang bekas bilang CD-nya tidak ada, pencarian web juga tidak menemukan apa-apa, dan LLM pun gagal menemukannya
ChatGPT terus bilang ada di archive, tetapi ternyata tidak ada. Saya lalu coba ke AA untuk berjaga-jaga, dan ternyata file ZIP untuk edisi 1 dan 2 sama-sama ada. Benar-benar seperti penyelamat
Saya penasaran berapa lama lagi sampai ada hadiah untuk pengarsipan internet
Karena Cloudflare CAPTCHA, internet bagi saya hampir tidak bisa dipakai, dan sepertinya akan makin buruk ke depan
Lebih baik menjelajahi salinan di situs seperti archive.is atau mengunduh lewat torrent. Yang terakhir juga jauh lebih baik untuk privasi, dan saya toh sudah memakai pemblokir iklan
- Kemungkinan besar seseorang di jaringan yang sama menjalankan permainan monetisasi lewat proksi Bright Data. Beberapa hari lalu juga ada utas tentang itu
  Bisa jadi juga smart TV. Jika penyebabnya ditemukan lalu disingkirkan, reputasi IP mungkin membaik sehingga CAPTCHA akan lebih jarang muncul
- https://x.com/CloudflareDev/status/2031488099725754821
  Ada konflik kepentingan kecil seperti ini
Saya penasaran siapa yang berada di balik Anna's Archive. Tampaknya ada banyak orang berbahasa Inggris di tim dan forumnya
Bagaimanapun, menurut saya selama membeli bukan berarti memiliki, tidak ada yang salah
- Sepertinya memang Anna yang ada di baliknya
  https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
  https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
- Cukup banyak buku di sana kemungkinan sejak awal memang bisa dibeli dalam bentuk tanpa DRM. Ada lebih banyak penulis yang tidak terlalu peduli soal DRM daripada yang dibayangkan orang
  Dan kalau membeli buku fisik, pembelian jelas berarti kepemilikan, jadi untuk buku kalimat itu terasa agak kurang tepat
- Seingat saya sumber utamanya dulu Rusia, atau mungkin itu LibGen
  Yang lebih mengejutkan adalah betapa sedikitnya alternatif seperti ini. Bahkan setelah Facebook dan pihak lain memerangi LibGen dan LibGen tumbang, alternatifnya ternyata sangat sedikit, dan Anna's Archive menjadi salah satu dari sedikit pilihan yang ada
  Saya masih tidak tahu persis apa yang terjadi pada LibGen, tetapi sejak serangan itu kondisinya tampak seperti praktis setengah menghilang
- Kalau Anda benar-benar merasa tidak ada masalah, saya jadi heran kenapa Anda bertanya di forum publik siapa yang ada di baliknya
Pada kalimat “sebelum mengerjakan bounty, bacalah [this] dengan saksama”, [this] tertaut ke alamat .li dan mengarah ke tempat berbahaya
Alamat yang benar seharusnya https://annas-archive.gl/volunteering#bounties
Jika ada orang yang sekarang khawatir akan dipecat dari Google, ini mungkin bisa jadi rencana cadangan
- Jika ketahuan mengekstrak data, kemungkinan akan digugat dengan nilai yang jauh lebih besar daripada 200 ribu dolar
- Kecil kemungkinan karyawan biasa bisa mengakses seluruh arsip
  Bahkan di antara segelintir orang yang punya izin akses, jika mulai mengunduh hanya sebagian sangat kecil dari konten pun, kemungkinan besar sistem otomatis akan mendeteksinya
- Masalah yang lebih besar adalah hal ini akan menimbulkan kerugian finansial. Mungkin bahkan perlu bersiap untuk pindah ke negara lain
Tugas bounty menarik lain yang mereka tawarkan: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Pembelian seluruh dataset MARC Library of Congress — bounty 3.000 dolar
Halaman Wikipedia bahasa Inggris untuk lembaga terkait — hingga 100 dolar per halaman baru
Internet Archive Digital Lending — 5.000 dolar per 1 juta PDF
Versi teks dari seluruh perpustakaan — 20.000 dolar, dll.
- Menarik juga bahwa mereka memasang hingga 500 ribu dolar untuk kegagalan keamanan operasional. Ini memberi harapan bahwa ada individu kaya yang berkontribusi pada berbagi buku, atau ada banyak donasi kecil
  https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Saya penasaran bagaimana masa depan pembajakan dan hak cipta
Situasi yang berpusat pada model peminjaman seperti sekarang tampak tidak berkelanjutan. Orang-orang biasa di sekitar kita pun sekarang sudah banyak yang tahu soal VPN dan NAS
- Kalau melihat betapa kecilnya bayaran yang diterima penulis dan seniman yang benar-benar membuat karya, rasanya jadi berharap guillotine adalah jawabannya
- Dari awal ini memang bukan struktur yang berkelanjutan, melainkan regulatory capture oleh para pemegang hak kekayaan intelektual besar
  Spotify, Netflix, Amazon, dan lainnya sempat menawarkan nilai yang lumayan baik untuk beberapa waktu, tetapi sekarang ketika penurunan kualitas layanan mulai makin nyata, mungkin sudah waktunya terjadi gelombang besar untuk kembali
Gemini kemungkinan besar sudah dilatih dengan buku-buku itu, jadi secara teori bisa saja mengeluarkan kembali beberapa kalimat apa adanya
Dalam gugatan yang dulu diajukan NYT terhadap OpenAI, contoh seperti itu juga pernah terungkap
- Gemini, GPT, dan Fable pada dasarnya adalah versi terkompresi yang sangat bagus dari konten internet
  Hanya saja ini bukan kompresi lossless; mereka mempertahankan bagian yang penting untuk menjalankan tugas prediksi token berikutnya, lalu menemukan cara meniru sisanya

Google Books atau pemindaian penuh buku serupa ditawari hadiah $200.000 (2025)

Sasaran hadiah dan syarat partisipasi

Skala dan metode pengiriman yang dirangkum dalam komentar

Bacaan terkait

1 komentar

Opini Hacker News