Mengapa wordfreq tidak lagi diperbarui
AI generatif mencemari data
- Sejak 2021, tidak ada lagi informasi yang dapat dipercaya tentang penggunaan bahasa oleh manusia
- Salah satu sumber data wordfreq, web terbuka (OSCAR), kini dipenuhi teks tak bermakna yang dihasilkan model bahasa besar
- Jika teks semacam ini dimasukkan ke dalam data, frekuensi kata akan terdistorsi
- Sebagai contoh, ChatGPT terobsesi dengan kata "delve" sehingga frekuensinya meningkat secara tidak normal
Informasi yang dulu gratis menjadi mahal
- wordfreq mengumpulkan data penggunaan bahasa percakapan dari Twitter dan Reddit
- Data Twitter selalu tidak stabil, dan kini Twitter telah hilang serta digantikan oleh X
- Reddit juga berhenti menyediakan arsip data publik, dan kini menjual data dengan harga yang hanya mampu dibayar oleh OpenAI
Tidak ingin lagi terlibat di bidang ini
- wordfreq telah membantu linguistik korpus dan alat pemrosesan bahasa alami
- Namun, saat ini bidang pemrosesan bahasa alami sedang dikuasai oleh AI generatif
- Sulit menemukan riset NLP yang tidak bergantung pada data tertutup yang dikendalikan OpenAI dan Google
- Alat pengumpulan teks kini terutama digunakan untuk melatih AI generatif, yang menimbulkan masalah pelanggaran hak cipta
- Tidak ingin terlibat dalam pekerjaan yang bisa disalahartikan sebagai AI generatif
Ringkasan GN⁺
- wordfreq adalah proyek yang berbasis pada data bahasa hingga tahun 2021
- Dengan munculnya AI generatif, keandalan data menurun, dan pembaruan dihentikan karena sumber data utama seperti Twitter dan Reddit menjadi berbayar
- Karena bidang pemrosesan bahasa alami dikuasai oleh AI generatif, penulis menyatakan tidak ingin lagi terlibat di bidang ini
- Sebagai proyek dengan fungsi serupa, direkomendasikan alat alternatif seperti Google Ngram Viewer
1 komentar
Opini Hacker News