- Artikel tentang ketidakakuratan n-gram di Google Ngram Viewer
- Penulis menunjukkan bahwa frekuensi kata-kata bahasa Inggris umum yang ditampilkan Ngram tidak secara akurat mencerminkan penggunaan sebenarnya pada abad ke-20
- Penulis dan Talia Felix menggunakan Google Books untuk penelitian, tetapi menemukannya sebagai basis data yang dirakit secara keliru dengan banyak kesalahan tersembunyi
- Penjelasan tentang salah satu kesalahan yang diwarisi Ngram dari Google Books dalam rumusnya, yang membuat banyak kata bahasa Inggris tampak seolah-olah penggunaannya menurun sepanjang abad ke-20 lalu hidup kembali pada 1980-an
- Kesalahan ini terjadi karena korpus Google Books sebagian besar bersifat akademik, dan jurnal sains serta akademik modern cenderung berulang kali menggunakan kosakata yang terbatas
- Penggunaan berlebihan kata-kata tertentu dalam tulisan akademik secara keliru menurunkan frekuensi kata lain, menciptakan "penurunan" di pertengahan abad ke-20 pada Ngram hampir semua kata
- Kesalahan lain adalah Google Books tidak mengenali kesamaan antara ejaan varian dan bentuk jamak
- Penulis juga menyebutkan bahwa banyak berkas di Google Books diberi tanggal yang salah, sehingga semakin merusak akurasi data
- Meskipun ada ketidakakuratan ini, Ngrams tetap digunakan di internet karena gambar menang dan kata-kata kalah
- Penulis menyarankan pembaca untuk memandang Ngrams sebagai sesuatu yang dekoratif dan nyentrik, bukan representasi yang akurat dari penggunaan kata
- Penulis menyimpulkan bahwa meskipun dunia lebih menyukai realitas Ngram, pembaca bisa menjadi lebih cerdas daripada itu.
1 komentar
Opini Hacker News