1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Anna’s Archive menawarkan hadiah $200.000 untuk memperoleh pemindaian penuh seluruh buku Google Books atau koleksi dengan skala serupa
  • Saat ini akses ke Google Books berpusat pada cuplikan kecil di sekitar hasil pencarian, sehingga memperoleh pemindaian penuh dipandang sebagai tugas inti dari sudut pandang pengarsipan
  • Jika menemukan metode yang dapat diskalakan, mereka meminta agar Anda menghubungi sejak tahap prototipe tanpa menunggu versi final
  • Orang dengan akses internal ke Google juga termasuk sasaran, dan bahkan jika hanya mendapatkan teks OCR saja tanpa gambar, setengah dari hadiah tetap bisa dibayarkan
  • Sasarannya tidak terbatas pada Google Books saja, tetapi juga berlaku untuk koleksi berskala besar lain yang mencakup buku langka yang dikumpulkan perusahaan AI dan pihak lain

Sasaran hadiah dan syarat partisipasi

  • Anna’s Archive menawarkan hadiah $200,000 untuk memperoleh pemindaian penuh Google Books atau koleksi serupa
  • Sebelum mulai, Anda harus membaca dengan cermat panduan bounties Anna’s Archive
  • Google Books memiliki banyak buku hasil pemindaian, tetapi saat diakses lewat pencarian, yang terlihat hanya cuplikan kecil di sekitar hasil
  • Jika menemukan metode yang punya potensi untuk diskalakan, mereka meminta agar Anda menghubungi lebih awal dengan prototipe tanpa menunggu sampai versi final
    • Anna’s Archive dapat membantu pekerjaan perluasan setelahnya
  • Orang yang bekerja di Google dan memiliki akses ke data tersebut juga termasuk dalam sasaran hadiah
    • Mereka menulis bahwa $200,000 mungkin bukan jumlah yang besar, tetapi jika Anda bisa membawa keluar data tersebut, Anda akan disebut sebagai “arsiparis legendaris”
  • Hadiah ini juga berlaku untuk koleksi berskala serupa selain Google Books
    • Sebagai contoh, mereka menyebut koleksi yang dikumpulkan perusahaan AI
    • Terutama jika itu adalah koleksi yang mencakup cukup banyak buku langka

Skala dan metode pengiriman yang dirangkum dalam komentar

  • Salah satu komentar menulis bahwa seluruh arsip, termasuk materi berhak cipta, berukuran sekitar 7PB, tetapi kemudian dikoreksi menjadi sekitar 1,5PB dan angka itu mencakup replika situs IUPUI
  • Materi domain publik dan materi yang dibuka oleh penulis disebut berukuran sekitar 300TB
  • Anna’s Archive menjawab bahwa mereka bersedia menambahkan hadiah terpisah jika belum ada scrape untuk materi domain publik dan materi yang dibuka penulis
  • Bahkan jika yang dibawa keluar bukan gambar penuh melainkan hanya teks OCR, untuk tujuan hadiah ini mereka bisa membayar setengahnya
  • Untuk metode pengiriman saat memperoleh data dalam jumlah besar, disebutkan SFTP atau metode serupa
  • Judul isu diubah pada 7 Juni 2025 menjadi Google Books (or similar) all book scans — $200,000 bounty

1 komentar

 
GN⁺ 4 jam lalu
Opini Hacker News
  • Saya tinggal di negara tempat buku berbahasa Inggris sulit didapat, jadi pembelian online dari luar negeri punya terlalu banyak prosedur administratif dan pembatasan
    Kalau bukan karena Anna's Archive dan Z-Library, saya mungkin tidak akan pernah membaca buku-buku yang membentuk diri saya sekarang, dan akan sulit mempertahankan semangat belajar
    Saya juga berterima kasih kepada para penulis yang telah memberi saya pengetahuan meski saya belum bisa membayar harga bukunya

    • Setengah bercanda setengah serius, orang bisa bilang berarti seluruh hidup saya sekarang ditopang hasil kejahatan, tapi pengetahuan harus bebas
      Pengetahuan tidak diciptakan dalam ruang hampa dan merupakan milik semua orang
    • Saya paham posisi itu, tetapi jika penulis tidak bisa menghasilkan uang, kemungkinan besar banyak dari buku-buku itu tidak akan pernah ada sejak awal
      Dulu ada penulis di Reddit yang pernah memposting statistik bahwa penjualan nyata bukunya ambruk setelah muncul di situs berbagi ilegal
      Karena itu, terutama untuk buku pemrograman, saya berusaha membelinya kalau bisa, dan memakai PDF seperti pratinjau. Justru karena itu saya membeli jauh lebih banyak dibanding dulu
      Tentu ceritanya berbeda jika Anda tinggal di wilayah tempat membeli memang tidak mungkin, tetapi saat memuji situs-situs seperti ini orang cenderung hanya melihat sisi positifnya
    • Syukurlah lokasinya tertulis di nama pengguna. Belakangan ini yang paling mengganggu saya di internet adalah orang berkata “di negara kami” tanpa pernah mengungkap negara mana sampai akhir
    • https://send.djazz.se/
      Ini alat penting untuk mengirim EPUB ke Kobo
  • https://SourceLibrary.org memiliki sekitar 16.000 terjemahan buku langka, dan sebagian besar merupakan terjemahan pertama
    Ada 50.000 buku yang sudah diarsipkan dan akan diterjemahkan jika ada dana, jumlah tokennya lebih besar daripada Wikipedia bahasa Inggris, dan skalanya sekitar 0,75PB
    Saya tidak tahu apakah ini memenuhi syarat untuk hadiah, tetapi saya ingin membagikannya dan sedang mencari sponsor kecil maupun besar untuk membantu menerjemahkan literatur Renaisans

    • Hasilnya indah, jawabannya juga tepat dan berkesan. Pendanaannya tampak mungkin dilakukan dengan model seperti API riset berbayar
    • Kelihatannya menarik
      Sulit langsung memahami apa saja yang sudah diarsipkan seluruhnya, tetapi saya punya teman-teman sejarawan akademik yang mungkin tertarik pada bidang tertentu dan bisa membantu memverifikasi beberapa bahasa yang sulit
      Saya penasaran apakah ada pencarian berdasarkan wilayah atau bahasa
      Saya juga penasaran apakah Anda sudah pernah menghubungi kalangan sejarawan mengenai proyek ini. Mahasiswa doktoral tampaknya juga bisa menemukan topik riset dari sini
      Saat saya melihat linimasa https://sourcelibrary.org/timeline, muncul error
    • Saya penasaran berapa anggaran yang dibutuhkan untuk sampai sejauh ini. Jumlah token-nya luar biasa besar, dan sepertinya Anda memakai Gemini Flash
  • Kemarin Anna's Archive benar-benar membantu
    Selama beberapa hari saya mencari file ZIP dari CD yang disertakan dengan buku pemrograman awal 2000-an; semua penjual barang bekas bilang CD-nya tidak ada, pencarian web juga tidak menemukan apa-apa, dan LLM pun gagal menemukannya
    ChatGPT terus bilang ada di archive, tetapi ternyata tidak ada. Saya lalu coba ke AA untuk berjaga-jaga, dan ternyata file ZIP untuk edisi 1 dan 2 sama-sama ada. Benar-benar seperti penyelamat

  • Saya penasaran berapa lama lagi sampai ada hadiah untuk pengarsipan internet
    Karena Cloudflare CAPTCHA, internet bagi saya hampir tidak bisa dipakai, dan sepertinya akan makin buruk ke depan
    Lebih baik menjelajahi salinan di situs seperti archive.is atau mengunduh lewat torrent. Yang terakhir juga jauh lebih baik untuk privasi, dan saya toh sudah memakai pemblokir iklan

    • Kemungkinan besar seseorang di jaringan yang sama menjalankan permainan monetisasi lewat proksi Bright Data. Beberapa hari lalu juga ada utas tentang itu
      Bisa jadi juga smart TV. Jika penyebabnya ditemukan lalu disingkirkan, reputasi IP mungkin membaik sehingga CAPTCHA akan lebih jarang muncul
    • https://x.com/CloudflareDev/status/2031488099725754821
      Ada konflik kepentingan kecil seperti ini
  • Saya penasaran siapa yang berada di balik Anna's Archive. Tampaknya ada banyak orang berbahasa Inggris di tim dan forumnya
    Bagaimanapun, menurut saya selama membeli bukan berarti memiliki, tidak ada yang salah

    • Sepertinya memang Anna yang ada di baliknya
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • Cukup banyak buku di sana kemungkinan sejak awal memang bisa dibeli dalam bentuk tanpa DRM. Ada lebih banyak penulis yang tidak terlalu peduli soal DRM daripada yang dibayangkan orang
      Dan kalau membeli buku fisik, pembelian jelas berarti kepemilikan, jadi untuk buku kalimat itu terasa agak kurang tepat
    • Seingat saya sumber utamanya dulu Rusia, atau mungkin itu LibGen
      Yang lebih mengejutkan adalah betapa sedikitnya alternatif seperti ini. Bahkan setelah Facebook dan pihak lain memerangi LibGen dan LibGen tumbang, alternatifnya ternyata sangat sedikit, dan Anna's Archive menjadi salah satu dari sedikit pilihan yang ada
      Saya masih tidak tahu persis apa yang terjadi pada LibGen, tetapi sejak serangan itu kondisinya tampak seperti praktis setengah menghilang
    • Kalau Anda benar-benar merasa tidak ada masalah, saya jadi heran kenapa Anda bertanya di forum publik siapa yang ada di baliknya
  • Pada kalimat “sebelum mengerjakan bounty, bacalah [this] dengan saksama”, [this] tertaut ke alamat .li dan mengarah ke tempat berbahaya
    Alamat yang benar seharusnya https://annas-archive.gl/volunteering#bounties

  • Jika ada orang yang sekarang khawatir akan dipecat dari Google, ini mungkin bisa jadi rencana cadangan

    • Jika ketahuan mengekstrak data, kemungkinan akan digugat dengan nilai yang jauh lebih besar daripada 200 ribu dolar
    • Kecil kemungkinan karyawan biasa bisa mengakses seluruh arsip
      Bahkan di antara segelintir orang yang punya izin akses, jika mulai mengunduh hanya sebagian sangat kecil dari konten pun, kemungkinan besar sistem otomatis akan mendeteksinya
    • Masalah yang lebih besar adalah hal ini akan menimbulkan kerugian finansial. Mungkin bahkan perlu bersiap untuk pindah ke negara lain
  • Tugas bounty menarik lain yang mereka tawarkan: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Pembelian seluruh dataset MARC Library of Congress — bounty 3.000 dolar
    Halaman Wikipedia bahasa Inggris untuk lembaga terkait — hingga 100 dolar per halaman baru
    Internet Archive Digital Lending — 5.000 dolar per 1 juta PDF
    Versi teks dari seluruh perpustakaan — 20.000 dolar, dll.

  • Saya penasaran bagaimana masa depan pembajakan dan hak cipta
    Situasi yang berpusat pada model peminjaman seperti sekarang tampak tidak berkelanjutan. Orang-orang biasa di sekitar kita pun sekarang sudah banyak yang tahu soal VPN dan NAS

    • Kalau melihat betapa kecilnya bayaran yang diterima penulis dan seniman yang benar-benar membuat karya, rasanya jadi berharap guillotine adalah jawabannya
    • Dari awal ini memang bukan struktur yang berkelanjutan, melainkan regulatory capture oleh para pemegang hak kekayaan intelektual besar
      Spotify, Netflix, Amazon, dan lainnya sempat menawarkan nilai yang lumayan baik untuk beberapa waktu, tetapi sekarang ketika penurunan kualitas layanan mulai makin nyata, mungkin sudah waktunya terjadi gelombang besar untuk kembali
  • Gemini kemungkinan besar sudah dilatih dengan buku-buku itu, jadi secara teori bisa saja mengeluarkan kembali beberapa kalimat apa adanya
    Dalam gugatan yang dulu diajukan NYT terhadap OpenAI, contoh seperti itu juga pernah terungkap

    • Gemini, GPT, dan Fable pada dasarnya adalah versi terkompresi yang sangat bagus dari konten internet
      Hanya saja ini bukan kompresi lossless; mereka mempertahankan bagian yang penting untuk menjalankan tugas prediksi token berikutnya, lalu menemukan cara meniru sisanya