- Anna's Archive adalah mesin pencari meta perpustakaan bayangan online nirlaba yang dijalankan oleh para aktivis anonim. Layanan ini menyediakan akses ke beragam sumber buku
- Mereka memperoleh koleksi buku nonfiksi berbahasa Mandarin sebanyak 7,5 juta buku / 350TB (bahkan lebih banyak daripada Library Genesis)
- Sebagai imbalan atas penyediaan OCR berkualitas tinggi dan ekstraksi teks untuk koleksi ini, perusahaan LLM tersebut akan mendapatkan akses awal eksklusif selama 1 tahun
- Koleksi ini berasal dari Duxiu, basis data besar berisi buku-buku hasil pemindaian yang dibuat oleh SuperStar Digital Library Group, dan sebelumnya disediakan secara digital untuk universitas serta perpustakaan
- Total ukuran file koleksi ini dalam bentuknya saat ini sekitar 359TB
- Teks yang diekstrak akan digunakan untuk pelatihan large language models (LLMs), dan Archive meyakini bahwa meskipun koleksi ini berbahasa Mandarin, data tersebut tetap dapat berguna untuk melatih LLM berbahasa Inggris
- Archive ingin menggunakan kerja sama ini untuk menyediakan fitur pencarian khusus kepada para pengguna
- Jika pihak yang bekerja sama bersedia membagikan seluruh kode pipeline, Archive terbuka untuk memperpanjang periode akses eksklusif
1 komentar
Opini Hacker News