2 poin oleh GN⁺ 2023-11-06 | 1 komentar | Bagikan ke WhatsApp
  • Anna's Archive adalah mesin pencari meta perpustakaan bayangan online nirlaba yang dijalankan oleh para aktivis anonim. Layanan ini menyediakan akses ke beragam sumber buku
  • Mereka memperoleh koleksi buku nonfiksi berbahasa Mandarin sebanyak 7,5 juta buku / 350TB (bahkan lebih banyak daripada Library Genesis)
  • Sebagai imbalan atas penyediaan OCR berkualitas tinggi dan ekstraksi teks untuk koleksi ini, perusahaan LLM tersebut akan mendapatkan akses awal eksklusif selama 1 tahun
  • Koleksi ini berasal dari Duxiu, basis data besar berisi buku-buku hasil pemindaian yang dibuat oleh SuperStar Digital Library Group, dan sebelumnya disediakan secara digital untuk universitas serta perpustakaan
  • Total ukuran file koleksi ini dalam bentuknya saat ini sekitar 359TB
  • Teks yang diekstrak akan digunakan untuk pelatihan large language models (LLMs), dan Archive meyakini bahwa meskipun koleksi ini berbahasa Mandarin, data tersebut tetap dapat berguna untuk melatih LLM berbahasa Inggris
  • Archive ingin menggunakan kerja sama ini untuk menyediakan fitur pencarian khusus kepada para pengguna
  • Jika pihak yang bekerja sama bersedia membagikan seluruh kode pipeline, Archive terbuka untuk memperpanjang periode akses eksklusif

1 komentar

 
GN⁺ 2023-11-06
Opini Hacker News
  • Koleksi ini diperkirakan mulai dibangun sekitar tahun 2015 dan mencakup sekitar 4 juta buku, banyak di antaranya merupakan duplikat.
  • Sumber koleksi ini adalah perusahaan bernama DuXiu, yang sejak awal 2000-an bekerja sama dengan perpustakaan-perpustakaan di Tiongkok untuk memindai koleksi mereka.
  • Koleksi ini berisi campuran buku teks Barat yang diterjemahkan, propaganda politik, serta karya sastra dan buku sejarah yang diterbitkan sebelum sensor ekstrem diberlakukan.
  • Perusahaan teknologi Tiongkok dapat mengakses koleksi ini, tetapi mungkin tidak menggunakannya karena risiko hak cipta dan politik.
  • Orang yang menjalankan situs ini dianggap cerdas tetapi ceroboh, dan muncul kekhawatiran tentang potensi tanggung jawab hukum.
  • DuXiu sangat dipuji sebagai sumber daya, dan ada harapan bahwa dalam waktu satu tahun koleksi ini akan dapat ditelusuri sepenuhnya.
  • Sentralisasi semua buku di Tiongkok dianggap menguntungkan untuk pelatihan AI.
  • Fakta bahwa koleksi ini 40 kali lebih besar daripada books3 memunculkan pertanyaan tentang hak cipta dan kemungkinan riset akademik di luar dunia berbahasa Inggris.
  • Ada spekulasi tentang efisiensi tokenisasi dalam bahasa Tionghoa yang memiliki kepadatan informasi tinggi.
  • Muncul pertanyaan apakah Language Models (LLMs) dapat mengodekan pengetahuan terlepas dari bahasa itu sendiri maupun bahasa kueri.
  • Ada ekspektasi bahwa perusahaan besar Tiongkok bisa mengajukan tawaran lebih tinggi daripada OpenAI untuk bersaing mendapatkan koleksi ini.
  • LLMs dapat berperan sebagai antarmuka yang mempermudah akses ke informasi berbahasa Tionghoa.
  • Reaksi terhadap penyalinan dalam budaya Tiongkok dipandang berbeda, sering kali dengan kecenderungan melihatnya sebagai bentuk penghormatan.