1 poin oleh GN⁺ 2023-09-27 | 1 komentar | Bagikan ke WhatsApp
  • Artikel tentang ketidakakuratan n-gram di Google Ngram Viewer
  • Penulis menunjukkan bahwa frekuensi kata-kata bahasa Inggris umum yang ditampilkan Ngram tidak secara akurat mencerminkan penggunaan sebenarnya pada abad ke-20
  • Penulis dan Talia Felix menggunakan Google Books untuk penelitian, tetapi menemukannya sebagai basis data yang dirakit secara keliru dengan banyak kesalahan tersembunyi
  • Penjelasan tentang salah satu kesalahan yang diwarisi Ngram dari Google Books dalam rumusnya, yang membuat banyak kata bahasa Inggris tampak seolah-olah penggunaannya menurun sepanjang abad ke-20 lalu hidup kembali pada 1980-an
  • Kesalahan ini terjadi karena korpus Google Books sebagian besar bersifat akademik, dan jurnal sains serta akademik modern cenderung berulang kali menggunakan kosakata yang terbatas
  • Penggunaan berlebihan kata-kata tertentu dalam tulisan akademik secara keliru menurunkan frekuensi kata lain, menciptakan "penurunan" di pertengahan abad ke-20 pada Ngram hampir semua kata
  • Kesalahan lain adalah Google Books tidak mengenali kesamaan antara ejaan varian dan bentuk jamak
  • Penulis juga menyebutkan bahwa banyak berkas di Google Books diberi tanggal yang salah, sehingga semakin merusak akurasi data
  • Meskipun ada ketidakakuratan ini, Ngrams tetap digunakan di internet karena gambar menang dan kata-kata kalah
  • Penulis menyarankan pembaca untuk memandang Ngrams sebagai sesuatu yang dekoratif dan nyentrik, bukan representasi yang akurat dari penggunaan kata
  • Penulis menyimpulkan bahwa meskipun dunia lebih menyukai realitas Ngram, pembaca bisa menjadi lebih cerdas daripada itu.

1 komentar

 
GN⁺ 2023-09-27
Opini Hacker News
  • Judul artikel "Siapa pun yang mendambakan kepastian sedang mendambakan kebohongan" memicu diskusi tentang keinginan akan kepastian dalam jadwal proyek.
  • Artikel tersebut mengkritik penggunaan ngrams dalam algoritme modern, dengan menyatakan bahwa itu adalah produk dari teknologi yang tidak dapat diandalkan dan tidak memahami apa pun.
  • Kritik terhadap ngrams dipandang sebagai peringatan di era yang semakin didominasi oleh AI generatif, yang pada dasarnya adalah prediktor ngram.
  • Beberapa komentar meragukan validitas klaim para penulis tentang statistik ngram, sambil menyoroti kurangnya bukti dan interpretasi grafik yang menyesatkan.
  • Masalah mendasar dalam analisis data ditekankan, yaitu bahwa analisis hanya sebaik datanya dan kualitas data sulit dievaluasi.
  • Sejumlah komentar mengkritik judul artikel tersebut serta kecenderungan clickbait dalam publikasi ilmiah.
  • Penggunaan Google Ngram dibahas, dan beberapa orang berpendapat bahwa yang keliru bukan alatnya, melainkan statistiknya yang dilepaskan dari konteks.
  • Artikel tersebut dikritik karena sumbu vertikal grafik tidak menyertakan angka 0, sehingga fluktuasi kecil bisa tampak besar.
  • Ada pembahasan bahwa tidak mungkin menyusun citra representatif masa lalu karena adanya kehilangan data yang melekat.