13 poin oleh xguru 2021-10-28 | 1 komentar | Bagikan ke WhatsApp
  • Peneliti Carl Malamud merilis indeks n-gram yang diekstrak dengan SpaCy dari 107.233.728 jurnal, termasuk makalah berbayar

  • Karena ini adalah indeks yang hanya berisi cuplikan kalimat dari 1 kata hingga maksimal 5 kata, bukan teks penuh, pembatasan hak cipta dapat dihindari

  • Dibuka gratis di Web Archive agar dapat digunakan untuk berbagai bidang penelitian

→ Contoh: seberapa sering bahan kimia tertentu digunakan dalam makalah

  • Terdiri dari 3 tabel

→ 350 miliar n-gram dan id jurnal

→ 19,7 miliar kata kunci dan id jurnal

→ id jurnal dan metadata: judul makalah, penulis, DOI (nomor identifikasi unik makalah)

  • Katalognya berupa file terkompresi 5TB, dan menjadi 38TB saat diekstrak

1 komentar

 
xguru 2021-10-28

Artikel pengantar dari Nature

Dengan hanya membuka indeksnya, bukan teks lengkap aslinya, mereka tampaknya menghindari masalah hak cipta dengan cara yang unik.

Seperti juga disebutkan dalam artikel Nature, yang mungkin jadi masalah hanya bagaimana Carl memperoleh paper berbayar aslinya untuk membuat indeks ini, sedangkan memanfaatkan indeks itu sendiri untuk penelitian tampaknya tidak akan menjadi masalah.

Melihat ini saya jadi teringat Aaron Swartz.. dan memang itu juga tertulis di bagian bawah materi.

Tonton juga video pidato Carl Malamud di Aaron Swartz Memorial