1 poin oleh GN⁺ 2024-09-19 | 1 komentar | Bagikan ke WhatsApp

Mengapa wordfreq tidak lagi diperbarui

AI generatif mencemari data

  • Sejak 2021, tidak ada lagi informasi yang dapat dipercaya tentang penggunaan bahasa oleh manusia
  • Salah satu sumber data wordfreq, web terbuka (OSCAR), kini dipenuhi teks tak bermakna yang dihasilkan model bahasa besar
  • Jika teks semacam ini dimasukkan ke dalam data, frekuensi kata akan terdistorsi
  • Sebagai contoh, ChatGPT terobsesi dengan kata "delve" sehingga frekuensinya meningkat secara tidak normal

Informasi yang dulu gratis menjadi mahal

  • wordfreq mengumpulkan data penggunaan bahasa percakapan dari Twitter dan Reddit
  • Data Twitter selalu tidak stabil, dan kini Twitter telah hilang serta digantikan oleh X
  • Reddit juga berhenti menyediakan arsip data publik, dan kini menjual data dengan harga yang hanya mampu dibayar oleh OpenAI

Tidak ingin lagi terlibat di bidang ini

  • wordfreq telah membantu linguistik korpus dan alat pemrosesan bahasa alami
  • Namun, saat ini bidang pemrosesan bahasa alami sedang dikuasai oleh AI generatif
  • Sulit menemukan riset NLP yang tidak bergantung pada data tertutup yang dikendalikan OpenAI dan Google
  • Alat pengumpulan teks kini terutama digunakan untuk melatih AI generatif, yang menimbulkan masalah pelanggaran hak cipta
  • Tidak ingin terlibat dalam pekerjaan yang bisa disalahartikan sebagai AI generatif

Ringkasan GN⁺

  • wordfreq adalah proyek yang berbasis pada data bahasa hingga tahun 2021
  • Dengan munculnya AI generatif, keandalan data menurun, dan pembaruan dihentikan karena sumber data utama seperti Twitter dan Reddit menjadi berbayar
  • Karena bidang pemrosesan bahasa alami dikuasai oleh AI generatif, penulis menyatakan tidak ingin lagi terlibat di bidang ini
  • Sebagai proyek dengan fungsi serupa, direkomendasikan alat alternatif seperti Google Ngram Viewer

1 komentar

 
GN⁺ 2024-09-19
Opini Hacker News
  • Web telah tercemar oleh aturan SEO Google. Paragraf pendek, pengulangan kata kunci, dan gaya penulisan yang berfokus pada kemudahan pengindeksan daripada keterbacaan menjadi masalah
    • ML/LLM adalah penyebab pencemaran kedua. Yang pertama adalah penulisan untuk bot perusahaan
  • Pada 2023, dibuat LowBackgroundSteel.ai sebagai tempat untuk mengumpulkan dataset yang belum tercemar
    • Wordfreq rencananya akan ditambahkan. Ada permintaan untuk mengirimkan materi ke Tumblr
  • Dapat memahami kekecewaan terhadap komunitas NLP, tetapi tidak semua orang seperti itu
    • Masalah pencemaran web bukan hal baru. Dulu juga ada ladang spam yang mencoba memanipulasi PageRank
    • Web di setiap generasi memerlukan teknologi untuk mengatasi masalah pada generasi tersebut
    • Konsumsi konten yang dibuat otomatis seperti yang diperkirakan George Orwell dalam 1984 telah menjadi kenyataan. Namun, teknologi ini juga bisa digunakan ke arah yang baik
  • Berpendapat bahwa web sudah mati. Karena AI, dibutuhkan waktu lebih lama untuk menemukan informasi yang berguna
    • Perlu lebih dari 10 menit untuk mencari earbud nirkabel tertentu. Situs-situs dipenuhi sampah
    • Dengan laptop lama, sulit menjelajahi situs web modern yang penuh grafis
    • Membenci web, browser web, desain web, SEO, pencarian, iklan, dan semuanya. Sedang mencari cara untuk membeli tanpa menggunakan web
  • Membagikan tautan Google Trends dan menyebut fakta menarik bahwa hasil pencarian "delve" tidak meningkat
  • Berpendapat bahwa sejak 2021 tidak ada lagi informasi yang dapat dipercaya tentang penggunaan bahasa manusia
    • Teks sudah melewati titik kritis, tetapi untuk video justru sekarang adalah masa yang penting
    • Anak-anak kecil khususnya sulit membedakan mana yang nyata. Teknologinya sudah ada, tetapi sebagian besar konten video masih belum terdampak
  • Setuju dengan pendapat bahwa web penuh dengan sampah yang dihasilkan oleh LLM
    • Dalam banyak kasus, konten tanpa nilai dibuat demi SEO
  • Jika AGI menjadi murah dan mudah diakses, sebagian besar pekerjaan akan dilakukan oleh AI
    • Revolusi AI harus dimulai dari bidang yang paling dekat dengan akar AI
  • Buku cetak sebelum 2020 bisa menjadi aset yang berharga
    • Internet akan penuh sampah, dan buku cetak modern pun akan mulai diragukan
    • Manusia akan dikemas sebagai penulis untuk buku yang sebenarnya ditulis AI
  • Para penulis yang kehilangan pekerjaan karena AI seharusnya dipekerjakan oleh hyperscaler AI
    • Namun, karya mereka tidak boleh mengandung kalimat yang dihasilkan AI