Mengapa wordfreq berhenti diperbarui

(github.com/rspeer)

1 poin oleh GN⁺ 2024-09-19 | 1 komentar | Bagikan ke WhatsApp

wordfreq adalah snapshot penggunaan bahasa yang diamati dari berbagai sumber online hingga 2021, dan dibekukan dengan mempertahankan versi terbarunya karena memperbarui data setelah itu justru dapat menurunkan kualitas
Setelah 2021, teks buatan AI yang tampak seperti tulisan manusia menyebar luas di web publik, sehingga sulit mengukur frekuensi kata berdasarkan penggunaan bahasa manusia yang sebenarnya
Data lama pun mengandung spam, tetapi umumnya masih bisa dikenali dan dikelola; namun, seperti kasus “delve” pada ChatGPT, keluaran AI generatif dapat menaikkan frekuensi kata tertentu secara tidak normal
Akses ke data Twitter dan Reddit, yang sebelumnya menjadi sumber penting bahasa percakapan, menghilang atau menjadi mahal, dan data historis Twitter juga tidak dapat didistribusikan ke luar karena ketentuan distribusinya
Seiring bidang pemrosesan bahasa alami condong ke AI generatif dan ketergantungan pada data tertutup, pengembang tidak ingin wordfreq membantu AI generatif atau disalahartikan sebagai bagian dari pekerjaan tersebut

Tambahan September 2024

Dokumen penghentian pembaruan wordfreq mendapat banyak perhatian, dan pengembang menilai orang-orang secara umum memahami posisinya
Ia tidak menghentikan pekerjaan pada pustaka open source itu sendiri; alat perbaikan Unicode serbaguna ftfy masih terus dikerjakan
Pembekuan data tidak selalu merupakan akhir yang buruk
- Banyak orang telah memakai wordfreq dengan bermanfaat, dan versi terbarunya tidak akan hilang
- Karena menilai bahwa pembaruan dapat membuat data menjadi lebih buruk, data tidak lagi diperbarui
- Seiring waktu data itu akan menjadi usang, tetapi tidak akan secara aktif menjadi lebih buruk

Snapshot penggunaan bahasa hingga 2021

Data wordfreq adalah snapshot penggunaan bahasa yang dapat ditemukan dari berbagai sumber online hingga 2021
Alasan tidak lagi diperbarui adalah gabungan dari kontaminasi data, biaya akses, dan perubahan di bidang pemrosesan bahasa alami

Web publik yang terkontaminasi AI generatif

Pengembang menilai bahwa setelah 2021 sulit memperoleh informasi yang tepercaya tentang bahasa yang benar-benar digunakan manusia
Salah satu sumber data wordfreq, web publik, digunakan melalui OSCAR
Saat ini, web dalam arti luas berisi banyak teks yang dihasilkan model bahasa besar, dan jika disertakan, frekuensi kata akan terdistorsi
Sumber data lama juga mengandung spam, tetapi dalam banyak kasus masih dapat dikelola dan dikenali
Model bahasa besar membuat teks yang tampak seperti bahasa dengan maksud nyata, dan keluarannya tersebar di banyak tempat
Menurut tulisan Philip Shapira tentang delve, ChatGPT menggunakan “delve” secara obsesif, berbeda dari cara manusia memakainya, dan menaikkan frekuensi keseluruhannya hingga tingkat order of magnitude

Data percakapan yang hilang atau menjadi mahal

wordfreq tidak hanya menangani kata-kata cetak formal, tetapi juga mengumpulkan penggunaan bahasa yang lebih dekat ke percakapan, terutama dari Twitter dan Reddit
Twitter dan X
- Basis data Twitter sejak awal sudah tidak stabil
- Bahkan ketika Twitter mengizinkan akses gratis ke sebagian “firehose”, ketentuan penggunaannya tidak memperbolehkan data yang dikumpulkan didistribusikan ke luar Luminoso
- wordfreq memuat nilai frekuensi yang dibuat dengan data tersebut sebagai input, tetapi data yang dikumpulkan itu sendiri bukan milik pengembang dan tidak lagi ia miliki
- Saat ini Twitter sudah tidak ada, API publiknya ditutup, dan situs tersebut digantikan oleh X
- Bahkan jika X menyediakan feed data mentah, pengembang menilai tidak akan ada informasi bernilai yang bisa ditemukan
Reddit
- Reddit juga menghentikan penyediaan arsip data publik
- Saat ini Reddit menjual arsip, dan harganya digambarkan berada pada level yang hanya mampu dibayar OpenAI

Alasan menjaga jarak dari AI generatif

wordfreq awalnya berada di persimpangan antara linguistik korpus dan pekerjaan yang membantu alat pemrosesan bahasa alami
Bidang “natural language processing” yang dikenal pengembang kini makin sulit ditemukan, dan ia menilai AI generatif sedang menelan area tersebut
Teknik lain masih ada, tetapi AI generatif mengambil sebagian besar perhatian dan pendanaan
Pengembang menilai riset NLP yang tidak bergantung pada data tertutup yang dikendalikan OpenAI dan Google kini jarang terlihat
Pekerjaan mengumpulkan banyak teks dalam berbagai bahasa seperti wordfreq dahulu dianggap cukup masuk akal
Saat ini alat pengumpulan teks terutama digunakan untuk melatih AI generatif, dan pengembang menilai wajar jika orang bereaksi defensif terhadap hal itu
Jika seseorang mengumpulkan semua teks dari buku, tulisan, situs web, dan unggahan publik, pengembang menilai kemungkinan besar tujuannya adalah membuat mesin plagiarisme yang mengklaim kata-kata pengguna sebagai miliknya sendiri

Kesimpulan penghentian pembaruan

Pengembang tidak ingin melakukan pekerjaan yang dapat disalahartikan sebagai AI generatif atau dapat membantu AI generatif
Ia menyatakan bahwa OpenAI dan Google harus mengumpulkan data mereka sendiri, dan ia berharap mereka membayar sangat mahal untuk itu
wordfreq tidak lagi diperbarui, tetapi versi terbaru yang ada tetap dipertahankan

1 komentar

GN⁺ 2024-09-19

Komentar Hacker News

Secara umum saya setuju, tetapi web sudah terkontaminasi oleh aturan SEO tidak resmi dari Google
Karena paragraf satu kalimat, pengulangan kata kunci, dan pendekatan yang lebih mengutamakan “kemungkinan terindeks” daripada keterbacaan, bahkan sebelum LLM web sudah bukan sumber data yang ideal untuk analisis semacam ini
Untuk data pelatihan pun sama; pada akhirnya LLM tumbuh dengan memakan tulisan yang ditulis bukan untuk manusia, melainkan untuk Googlebot. ML/LLM adalah iterasi kedua dari pencemaran tulisan, dan yang pertama adalah ketika manusia mulai menulis bukan untuk manusia lain, melainkan untuk bot korporat
- Spam blog umumnya ditulis oleh manusia, dan meski buruk karena alasan lain, tampaknya masih cukup baik untuk mengukur frekuensi kata dasar dalam teks yang ditulis manusia
  Frekuensi pasti memiliki bias, tetapi begitu juga sebagian besar teks; dalam buku teks perawatan karburator, kata “carburetor” tentu akan muncul jauh lebih sering daripada baseline
  Kalau ada campuran yang sehat dari berbagai buku, artikel berita, dan blog, itu tidak masalah. Sebaliknya, konten LLM lebih mirip ular yang memakan ekornya sendiri: mencoba membuat model statistik distribusi kata lagi dari keluaran model distribusi kata
- Pada titik tertentu, kita juga harus mengakui bahwa penggunaan bahasa tertentu adalah ciri dari medium itu sendiri yang frekuensi katanya sedang dihitung
  Surat kabar, novel, email ke atasan, dan sebagainya juga punya gaya khas dalam panjang kalimat dan paragraf, pengulangan yang tidak perlu, serta penekanan pada metrik selain keterbacaan
  Setidaknya jika teks itu ditulis oleh manusia dengan mempertimbangkan kemungkinan dibaca orang lain, itu bisa dianggap sebagai penggunaan bahasa yang jauh lebih sah daripada teks yang dihasilkan mesin
- Ini terasa seperti Eternal September kedua, dan dalam skala yang jauh lebih besar
  Saya tidak tahu internet masih bisa bertahan berapa lama lagi, dan penggunaan saya sudah terasa jauh lebih berkurang dibanding 2018. Sekarang terlalu sulit menemukan sesuatu yang layak dibaca, jadi akhirnya saya banyak menghabiskan waktu di sini
- Meski begitu, ini tidak seekstrem yang tersirat. Dalam data pelatihan, bobot diberikan berdasarkan metrik kualitas, dan tulisan jurnalis atau kontributor Wikipedia mendapat porsi lebih besar daripada resep brownies bibi atau spam blog perusahaan
- Sebelum Google ada Altavista, dan pada masa itu pun sangat umum orang menjejalkan kata kunci ratusan kali di bagian bawah halaman dengan teks putih di atas latar putih
  Spam SEO bukan hal baru; hanya bentuknya saja yang berubah
Pada 2023 saya membuat https://lowbackgroundsteel.ai/ sebagai tempat mengumpulkan referensi dataset yang belum terkontaminasi
Saya juga berencana menambahkan wordfreq, jadi akan sangat membantu jika ada yang mengirimkan materi lewat Tumblr
- Selamat atas “peluncurannya”. Saya juga sempat menjadikan pembuatan situs yang hampir persis seperti ini sebagai pekerjaan latar untuk beberapa waktu. Saya penasaran tanggal acuannya ditetapkan di mana
  Daftar berguna yang saya susun saat melakukan riset adalah: penemuan arsitektur transformer pada 2017, GPT-1 pada Juni 2018, GPT-2 pada Februari 2019, GPT-3 pada Juni 2020, GPT-3.5 pada Maret 2022, ChatGPT pada November 2022
  Mungkin bagus juga menambahkan arsip kiwix dari sebelum tanggal acuan yang ditetapkan. Itu bisa ditemukan di Internet Archive, dan ada Wikipedia, Stack Overflow, Wikisource, Wikibooks, serta berbagai versi wiki
- Namanya cerdas. Saya suka analoginya
- Menurut saya ini justru kebalikan persis dari yang diinginkan penulis. Penulis tidak ingin lagi menjadi bagian dari kekacauan ini
  Mengumpulkan sumber semacam ini hanya akan membuat perusahaan teknologi besar jauh lebih mudah mengeruk lebih banyak data
- Sebagai referensi, dataset saya DebateSum dan OpenDebateEvidence/OpenCaseList dalam bentuk saat ini berakhir paling lambat pada 2022, jadi termasuk di sini
- Entah apakah kita bisa mempercayai situs yang terkontaminasi grafis AI /s
Saya turut prihatin OP jadi kecewa terhadap komunitas pemrosesan bahasa alami tempat saya berada, dan meski ini memang tren yang nyaris berada di puncak hype, saya ingin mengatakan bahwa “tidak semua dari kami seperti itu”
Masalah kontaminasi web oleh konten buatan ini memang tepat waktu, dan sebelumnya juga sudah ada kasus seperti ladang spam yang mencoba memanipulasi PageRank
Karena itu, daftar situs web berkualitas tinggi yang dikurasi langsung oleh manusia, yang disebut “web kecil”, mungkin mendapatkan nilai baru
Setiap generasi web membutuhkan teknologi untuk mengatasi mekanisme adversarial pada zamannya sendiri, dan web saat ini bukan pengecualian
Ketika Eric Arthur Blair menulis 1984 dengan nama pena “George Orwell”, ia membayangkan situasi ketika masyarakat menjauh dari pemikiran kritis dengan mengonsumsi konten yang dihasilkan otomatis. Hal itu sedang terjadi sekarang, tetapi teknologi yang dikritik juga bisa digunakan untuk kebaikan, dan di tim riset NLP saya kami berusaha melakukannya. Pada akhirnya kebaikan akan menang
- Apakah web kecil yang “baik” pernah benar-benar menang?
  IRC, Usenet, Reddit, Facebook, Geocities, Yahoo, webring—sistem konten apa pun tampaknya akan tercemar oleh kebisingan begitu mencapai penggunaan arus utama
  Pilihan yang kecil dan terkurasi pun, jika akhirnya cukup besar, menjadi korban keberhasilannya sendiri dan dikuasai spam
  Selalu ada perlombaan senjata antara kualitas dan kuantitas, dan pada akhirnya kurator tidak mampu mengejar volume yang luar biasa besar
- Orang-orang yang menghindari berpikir kritis sudah melakukannya dan akan terus melakukannya, ada atau tidak ada konten AI
- Gagasan bahwa “pada akhirnya kebaikan akan menang” itu berbahaya. Itu bisa membuat kita justru menunda tindakan menentukan yang kemungkinan besar diperlukan agar hal seperti itu benar-benar terjadi
- Sedikit menyimpang, tetapi Marx juga pada 1894 memprediksi keberadaan cryptocurrency dan NFT https://www.marxists.org/archive/marx/works/1894-c3/ch25.htm
  Aneh bahwa kita terus melewati “garis merah” semacam ini seolah-olah tidak ada apa-apa. Seperti meme itu: penulis fiksi ilmiah berkata “saya menciptakan Torment Nexus sebagai kisah peringatan”, lalu perusahaan teknologi berkata “kami membuat Torment Nexus dari novel fiksi ilmiah klasik ‘Jangan Membuat Torment Nexus’”
- Bagaimana jika jalan agar kebaikan menang adalah menolak teknologi dan keyakinan yang telah berubah menjadi destruktif?
Tegasnya, web sudah mati. Berkat “AI”, sekarang waktu yang dibutuhkan untuk mengubek-ubek pencarian demi menemukan sesuatu yang berguna lebih lama daripada pada 2005
Situs-situs yang ditemukan pun umumnya sampah
Misalnya, untuk menemukan satu earphone nirkabel terkenal saja, padahal sudah tahu perusahaannya, situs web perusahaan itu, dan tempat penjualannya, tetap butuh setidaknya 10 menit. Karena terkubur di bawah segala macam rongsokan
Laptop saya adalah i7 8-core “lama”, RAM 16GB, tetapi tetap kewalahan menghadapi situs “modern” yang sarat grafis. Dulu situs sederhana dan berjalan baik, sehingga produk bisa cepat dicari dan dibeli, tetapi tadi malam bahkan memasukkan barang ke keranjang dan checkout saja benar-benar menyiksa
Saya benci web, browser, desain web, SEO, pencarian, iklan, dan semua barang murahan yang menyertainya. Sudah cukup. Kalau ada cara membeli sesuatu tanpa web, saya akan melakukannya. Bukan berarti saya sepenuhnya membenci teknologi itu sendiri, tetapi web sekarang sudah menjadi telur busuk
- Di Amazon dulu ulasan dan Q&A bisa langsung dicari lewat kotak pencarian, dan itu sangat berguna
  Sekarang kotak pencarian itu lebih dulu mengirim kata kunci ke LLM, membuat kita menunggu 10–15 detik, lalu menampilkan rangkuman tak berguna seperti “sebagian ulasan mengatakan begini-begitu”
  Baru setelah itu kita bisa menekan tombol untuk melihat item yang berisi kata yang dicari di ulasan dan pertanyaan sebenarnya. Ini sepertinya akan membuat saya berhenti memakai Amazon. Kalau masih ada cara untuk mencari langsung, saya ingin diberi tahu
- Secara umum tidak ada yang bisa dibantah
  Dulu kalau mencari derailleur hanger sepeda Trek, hasil pertama adalah yang diinginkan. Sekarang harus melewati 5 iklan yang menyuruh membeli sepeda baru, satu tautan pihak ketiga yang rusak, dan kalau beruntung tautan ke halaman komponen itu muncul di bagian paling bawah halaman 1
  Pensampahan web itu nyata
- Sepertinya laptopnya benar-benar ketinggalan zaman. Harus membeli laptop generasi berikutnya di Amazon yang mampu menanggung beban SEO modern
  Produk yang direkomendasikan adalah LEEZWOO 15.6" Laptop - 16GB RAM 512GB SSD PC Laptop, Quad-Core N95 Processor Up to 3.1GHz, Laptop Computers with Touch ID, WiFi, BT4.2, for Students/Business
  Namanya enak sekali dibaca, bukan
- Ada startup yang menjual pencarian yang lebih baik sebagai produk. Fungsi intinya dipakai dengan membayar, jadi poinnya adalah saya bukan produknya https://kagi.com/welcome
- Selama 10 tahun terakhir saya pelan-pelan melepaskan diri dari web. Belakangan ini saya terutama membuat aplikasi offline dengan teknologi native
  Kemampuan seperti itu masih ada. Sempat mundur karena terlalu tercemar toolbar dan malware, dan sekarang malware ada di sisi seberang sehingga aplikasi native kembali keren. Tinggal tahu harus melihat ke mana
  Papan nama saya ada di sini: https://akkartik.name/freewheeling-apps
  Namun “web” yang dimaksud di sini tampaknya hanya yang bisa diakses melalui mesin pencari. Masih ada web lama, yaitu web yang dimediasi oleh relasi dan reputasi, bukan layanan agregasi dengan miliaran pengguna. Seperti tautan di atas, atau situs yang sedang kita pakai ini yang dimoderasi secara heroik
Saya setuju dengan pernyataan “sejak 2021 tidak ada orang yang punya informasi tepercaya tentang penggunaan bahasa manusia”
Teks memang sudah melewati tipping point sejak beberapa waktu lalu, tetapi untuk video, rasanya sekarang adalah titik balik
Anak-anak kecil khususnya punya intuisi yang lemah tentang mana yang nyata dan mana yang tidak. Jika ditanya apakah orang dalam video itu nyata, untuk saat ini saya masih bisa menjawab dengan cukup percaya diri, tetapi rasa percaya diri itu berkurang setiap hari
Teknologinya jelas sudah siap, dan meski sebagian besar konten video belum terdampak, saya rasa itu akan segera berubah
- Ada tantangan seperti ini: https://www.nytimes.com/interactive/2024/09/09/technology/ai-video-deepfake-runway-kling-quiz.html
  https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
  Memang agak tidak adil karena membandingkan contoh-contoh yang sudah dipilih ketat, tetapi pakar pun tampaknya akan sulit lulus banyak tes semacam ini. Teknologi hanya bergerak maju, dan kecepatannya tampak makin tinggi
  Yang mengejutkan adalah kecepatan kemajuan. Umat manusia hampir 3 juta tahun, Homo sapiens sekitar 300 ribu tahun, kota·pertanian·peradaban sekitar 10 ribu tahun, logam sekitar 4000 tahun, Revolusi Industri 500 tahun, demokrasi 200 tahun, komputasi sekitar 50–100 tahun
  Jarak antar-revolusi hampir memendek secara eksponensial
  Jika membandingkan dunia sekarang dengan masa kecil, salah satu revolusi yang masih sedang saya cerna adalah manufaktur otomatis. Kalau membuka AliExpress, begitu banyak barang pada dasarnya gratis. Saya membeli charger 5-port 120W dengan harga kurang dari 2 menit waktu saya, dan waktu untuk mencarinya lebih singkat daripada waktu untuk menghasilkan uangnya
  Saya tidak begitu tahu semua ini akan menuju ke mana
- Sekarang saya tidak lagi punya keyakinan bahwa saya bisa mengidentifikasi orang sungguhan
  Saya sering menandai orang yang sebenarnya nyata sebagai “mirip palsu” ketika mereka mengadopsi pola perilaku kreator TikTok, Instagram, dan YouTube
  Janggut saya juga sudah memutih, tetapi dalam video presentasi tahun 2020 saya sudah mengejek wajah thumbnail YouTube. AI menangkap pola perilaku “setengah manusiawi” semacam ini dengan sangat cepat dan kuat
  Ada video yang beredar berisi dua perempuan muda sambil memegang papan “This is real”/“This is not real”; keduanya bisa saja sepenuhnya berbohong dan saya tidak bisa membedakannya. Semuanya menunjukkan pola perilaku yang agak “aneh”, tetapi konsisten dengan sedikit video influencer yang pernah saya lihat
- Hasil generatif yang buruk bisa dikenali, tetapi bagaimana kita tahu bahwa kita tidak sedang tertipu oleh yang bagus
- Saya tidak pernah memikirkan itu. Kalau manusia kehilangan kemampuan membedakan konten AI dan kenyataan, itu menakutkan
Pernyataan bahwa “sekarang seluruh web dipenuhi slop buatan model bahasa besar, tidak ditulis siapa pun dan tidak menyampaikan apa pun” itu adil dan akurat
Bahkan dalam kasus terbaik pun, orang yang menjalankan model bukanlah orang yang menulis teks itu, dan salad kata tersebut tidak menyampaikan apa yang ingin dikatakan orang itu
Dalam banyak kasus, konten sekadar digelontorkan demi SEO tanpa niat memberi nilai kepada siapa pun
- Kalimat itu juga sangat mengena bagi saya dan terasa sangat kuat
Mungkin buku cetak sebelum 2020 akan menjadi barang berharga 10–20 tahun lagi
Saat internet dipenuhi slop, dan bahkan buku cetak dari masa itu mulai dicurigai
Lalu akan ada talking head manusia yang berpura-pura menjadi penulis buku yang ditulis AI yang sangat pintar. Sebenarnya kenapa kita melakukan semua ini
- Mungkin untuk mengangkat “filantropis” terkenal seperti Sam Altman atau Mark Zuckerberg. Di sini juga banyak orang yang menganggap mereka pahlawan
- Saya dulu mengira mengumpulkan banyak buku dan hampir tidak membacanya itu semacam gangguan mental, tapi sekarang sepertinya harus lebih sering dilakukan
- Atau bisa juga talking head AI yang berpura-pura menjadi penulis buku yang ditulis AI https://youtu.be/pAPGRGTqIgI
  Peringatan: AI disinformasi yang disponsori negara
Perasaan saya sangat campur aduk soal masalah ini
Di satu sisi saya sepenuhnya setuju dengan Robyn Speer. Web terbuka sudah mati, dan kondisi web benar-benar menyedihkan. Beberapa hari lalu saya memutuskan menaruh blog pribadi saya di gopher. Alasannya sederhana: di gopher sampahnya jauh lebih sedikit, dan tentu saja itu bukan berarti gopher adalah jawabannya
Namun beberapa minggu lalu, saya harus mengirim file video kepada kakek istri saya yang berusia 97 tahun, tinggal di negara lain, dan tidak memakai komputer maupun ponsel. Pada akhirnya saya memastikan ia punya pemutar DVD, lalu menggunakan x264 untuk mengubah video 4K HDR modern menjadi format yang bisa diputar di pemutar DVD lama mana pun, sambil sebisa mungkin mempertahankan kualitas gambar
Masalahnya, x264 tidak punya dokumentasi. Berbeda dengan x265, yang punya sponsor korporat yang membayar pembuatan dokumentasi yang layak, x264 pada dasarnya dikembangkan lewat coba-coba oleh anggota forum doom9. Ada ratusan flag yang sulit dipahami, dan sebagian di antaranya berperilaku berbeda dibanding 20 tahun lalu
Saya bisa saja menggali puluhan thread doom9 berusia 20 tahun untuk mencari tahu fungsi tiap flag, tetapi kenyataannya saya bertanya kepada LLM, dalam hal ini Claude
Claude tidak sempurna dan mencampur beberapa flag ffmpeg dengan flag x264, tetapi dengan tambahan pencarian tradisional dan coba-coba, saya bisa menyelesaikan pekerjaan itu dalam sekitar 30 menit. Kualitas hasilnya juga cukup memuaskan, dan bisa diputar di pemutar DVD yang sangat tua
Sebelum ada LLM, saya tidak akan menyewa pakar x264 untuk pekerjaan ini. Saya mungkin akan menghabiskan beberapa jam lagi, atau yang lebih mungkin, pria 97 tahun itu tidak akan bisa menonton tarian cicit perempuannya. Katanya video itu membuatnya tersenyum lebar
LLM, seperti semua hal sebelumnya, hanyalah alat. Secara inheren ia tidak baik maupun jahat. Yang penting adalah apa yang kita lakukan dan bagaimana kita menggunakannya
- Bukankah sebagian besar software pembakar DVD dulu biasanya sudah punya konversi video sebagai fitur bawaan?
  Pada masa itu saya mungkin akan memakai Nero Burning ROM atau Handbrake. Kualitasnya mungkin tidak akan dioptimalkan sampai tingkat yang diinginkan, tetapi bagi mata berusia 97 tahun, videonya kemungkinan sudah cukup layak ditonton
Apakah kita sebagai manusia telah mencemari internet dengan AI sampai sekarang hampir tidak bisa dipakai lagi?
Menurut saya, internet bisa dianggap seperti lingkungan alam semacam Bumi. Karena ia adalah ruang tempat orang berbagi, bertemu, dan berbicara
Mengejutkan bahwa setelah mencemari lingkungan alam, sekarang kita juga mencemari internet
- Jika belum demikian, sebentar lagi pasti akan begitu. Mungkin ada orang-orang yang menangani masalah ini, tetapi saya rasa kita sedang mencapai momen feedback loop yang sangat dekat
  Sebagian besar informasi yang pernah dicatat manusia sudah didigitalkan, dan banyak di antaranya kini menghasilkan konten non-manusia dengan kecepatan luar biasa. Kita telah menyuntikkan noise yang sangat besar ke dalam data yang bisa kita gunakan
  Saya tidak tahu apakah jawabannya adalah lebih banyak konten manusia atau konten generatif baru, tetapi masa transisi ini akan menciptakan tantangan dalam jangka menengah
  Saya ingin percaya bahwa era “semakin banyak token semakin baik” dalam LLM sedang berakhir dan kita bergerak ke arah penggunaan data yang ada dengan lebih baik, tetapi kenyataannya kita sedang berdiri di depan titik balik penting
- Masih ada komunitas kecil dan tertutup yang sangat bernilai. Tempat saya menulis sekarang adalah salah satunya
  Namun internet terbuka pada dasarnya kini sudah tidak berguna, dan akar masalahnya adalah model bisnis berbasis iklan
- Tragedy of the commons merusak segala sesuatu di sekitarnya
- Benar. Di sini juga ada panduan praktis untuk membuat internet menjadi septic tank yang lebih besar https://www.youtube.com/watch?v=endHz0jo9Ck
  Sekarang tampaknya sudah seperti hukum alam bahwa teknologi baru apa pun akan berujung pada amplifikasi SEO. AI telah menjadi Degelman M34 Manure Spreader-nya internet https://degelman.com/products/manure-spreaders
- Analogi yang bagus. Untungnya, di dunia online lebih mudah menciptakan “real estat” dari ketiadaan. Namun sebagian ruang bernilai seperti Twitter dan Reddit sudah hilang sampai tingkat tertentu
Kepada para penulis yang akan segera kehilangan pekerjaan atau sudah kehilangan pekerjaan dan secara praktis sulit dipekerjakan lagi dengan pekerjaan lama mereka, operator AI skala raksasa harus membayar mereka untuk menulis apa pun
Syaratnya hanya satu: tidak satu pun kalimat dalam karya itu boleh dibuat oleh AI
Awalnya saya hendak mengatakan “pemerintah yang harus membayar”, tetapi itu berarti mensosialisasikan kerugian, dan kita sudah cukup banyak mengalaminya di masa lalu
- Sudah ada beberapa perusahaan yang melakukan hal semacam itu. Saya juga sesekali mengerjakan kontrak untuk beberapa di antaranya, dan bayarannya kadang jauh melampaui tingkat yang bisa diharapkan penulis rata-rata di tempat lain
  Namun sebagian besar penulis tidak pernah mencari nafkah dari menulis. Hambatan untuk menulis terlalu rendah, terlalu banyak orang yang suka menulis, dan kebanyakan orang hampir tidak membaca
- Siapa yang memprogram pita itu? https://en.wikipedia.org/wiki/Profession_(novella)
- Perusahaan AI memang mempekerjakan orang-orang seperti itu untuk membuat data pelatihan khusus
- Orang-orang sudah lebih dari 10 tahun membuat noise dan dibayar untuk itu. Sampah masuk, sampah keluar selalu benar
  Mencari token berikutnya adalah masalah yang sudah terpecahkan. Pemikiran baru bisa dipecahkan manusia dan mungkin tak lama lagi juga bisa dilakukan AI, tetapi menambahkan lebih banyak sampah ke data tidak akan membuatnya lebih baik
- Pernah membaca sejarah Amerika, lol

Mengapa wordfreq berhenti diperbarui

Tambahan September 2024

Snapshot penggunaan bahasa hingga 2021

Web publik yang terkontaminasi AI generatif

Data percakapan yang hilang atau menjadi mahal

Twitter dan X

Reddit

Alasan menjaga jarak dari AI generatif

Kesimpulan penghentian pembaruan

Bacaan terkait

1 komentar

Komentar Hacker News