Apakah model bahasa skala besar akan menjadi ancaman bagi barang publik digital?

kuroneko · 2023-07-18T15:33:20+09:00

Analisis tentang dampak LLM terhadap konten web melalui aktivitas Stack Overflow setelah hadirnya ChatGPT. Aktivitas di Stack Overflow menurun 16%~25% setelah ChatGPT. Semakin umum digunakan dan semakin terkenal suatu bahasa, semakin besar penurunannya. Angka ini dibandingkan dengan situs di Tiongkok dan Rusia tempat ChatGPT diblokir, atau situs terkait matematika yang sulit digantikan oleh AI. Jumlah suara pada postingan tidak berubah, sehingga kualitas jawaban tampaknya tidak meningkat. Ini berarti data buatan manusia berkurang setelah hadirnya ChatGPT. Akibatnya, berbagai masalah dapat muncul. Jumlah dan kualitas materi di seluruh internet dapat menurun, dan efisiensi data pelatihan AI juga bisa menurun. Karena data ChatGPT dimiliki secara eksklusif oleh OpenAI, kesenjangan teknologi antarperusahaan bisa makin melebar. Ruang eksplorasi manusia dapat menyempit, dan perkembangan produk atau bahasa baru yang belum dipelajari AI bisa melambat. Kesenjangan antarlapisan masyarakat, seperti antarnegara dan antarkelompok pendapatan yang sulit menikmati manfaat LLM, bisa makin melebar. Ini adalah isu yang perlu dipikirkan demi ekosistem web dan AI yang berkelanjutan.

(arxiv.org)

11 poin oleh kuroneko 2023-07-18 | 5 komentar | Bagikan ke WhatsApp

Analisis tentang dampak LLM terhadap konten web melalui aktivitas Stack Overflow setelah hadirnya ChatGPT.
Aktivitas di Stack Overflow menurun 16%~25% setelah ChatGPT.
- Semakin umum digunakan dan semakin terkenal suatu bahasa, semakin besar penurunannya.
- Angka ini dibandingkan dengan situs di Tiongkok dan Rusia tempat ChatGPT diblokir, atau situs terkait matematika yang sulit digantikan oleh AI.
Jumlah suara pada postingan tidak berubah, sehingga kualitas jawaban tampaknya tidak meningkat.
Ini berarti data buatan manusia berkurang setelah hadirnya ChatGPT.
Akibatnya, berbagai masalah dapat muncul.
- Jumlah dan kualitas materi di seluruh internet dapat menurun, dan efisiensi data pelatihan AI juga bisa menurun.
- Karena data ChatGPT dimiliki secara eksklusif oleh OpenAI, kesenjangan teknologi antarperusahaan bisa makin melebar.
- Ruang eksplorasi manusia dapat menyempit, dan perkembangan produk atau bahasa baru yang belum dipelajari AI bisa melambat.
- Kesenjangan antarlapisan masyarakat, seperti antarnegara dan antarkelompok pendapatan yang sulit menikmati manfaat LLM, bisa makin melebar.
Ini adalah isu yang perlu dipikirkan demi ekosistem web dan AI yang berkelanjutan.

5 komentar

soupdog 2023-07-25

Sepertinya ketika model bahasa menggantikan komunikasi yang dulu dilakukan Stack Overflow, pengetahuan yang dibagikan di internet melalui interaksi antarmanusia pun perlahan berkurang. Meminjam metafora katedral dan pasar, ini tampaknya menjadi sebuah katedral yang dalam arti sesungguhnya dimonopoli oleh seseorang.

laeyoung 2023-07-19

Yang paling saya khawatirkan, dan masalah terbesar yang saya alami secara pribadi, adalah terjadinya apa yang dalam ekonomi disebut "uang buruk mengusir uang baik".

Sebelum ChatGPT muncul, untuk mendapatkan persetujuan iklan Google, per akhir tahun lalu cukup menulis sekitar 8 artikel di blog. Sekarang, bahkan setelah menulis dua kali lipat dari itu pun, persetujuan tidak diberikan dengan alasan kekurangan konten atau konten tidak valid. Padahal semuanya saya tulis sendiri dengan tangan.

Karena blog yang dibuat otomatis dengan AI semakin banyak, standar persetujuan AdSense ikut naik, dan kita juga tidak tahu di mana batas akhirnya. Akibatnya, saya sudah hampir menyerah mendapatkan persetujuan AdSense untuk blog ulasan film yang saya tulis selama hampir 3 bulan.

Dari sisi pemeriksa, karena mereka tidak bisa membedakan apakah ini "uang baik" (konten yang ditulis manusia) atau "uang buruk" (dibuat dengan AI, atau dibuat dengan AI lalu diedit), mereka kemungkinan akan memilih menaikkan standarnya. Pada akhirnya, saya jadi merasa jangan-jangan kita akan melihat lagi situasi seperti awal tahun ini, ketika hanya halaman web yang dibuat otomatis yang muncul di peringkat atas hasil pencarian Google.

cosine20 2023-07-19

Saya justru cenderung melihatnya secara positif.
Metode pencarian informasi tradisional membutuhkan dua hal: "kemampuan memasukkan kata kunci yang tepat ke mesin pencari" dan "kemampuan memilih hasil yang saya inginkan dari hasil pencarian". Kelelahan yang timbul dari proses ini cukup besar.
Saya hanya ingin mencari kode untuk melakukan hal sederhana, tetapi ketika membuka postingan StackOverflow yang muncul di hasil pencarian, ada tiga atau empat jawaban berisi kode. Sebagian mendapat downvote karena memakai spesifikasi bahasa lama sehingga rumit, sebagian lagi memang diterima tetapi setelah versi diperbarui tidak lagi berjalan dengan baik, lalu di komentar orang-orang sibuk mengeluhkan ketidaknyamanan dan saling mencari cara menyelesaikannya. Hal-hal seperti ini ternyata lebih sering terjadi daripada yang dibayangkan.

Pada akhirnya, jika dilihat dalam konteks besar, sejak era informasi dimulai tetap dibutuhkan "kemampuan memilih informasi yang benar-benar saya inginkan di tengah banjir informasi", tetapi saya rasa pilihan yang tersedia untuk kita menjadi terlalu banyak sehingga menilai semuanya terasa merepotkan dan melelahkan.

Dari sudut pandang ini, model bahasa skala besar yang terlatih dengan baik justru bisa memungkinkan pembagian peran sampai tingkat tertentu, karena dapat menyajikan informasi yang sangat sepele dan sering dicari orang hingga informasi yang agak lebih tingkat tinggi dengan UX yang masuk akal.
Untuk informasi yang sangat baru, yang sulit dijawab dengan tepat oleh LLM, atau pertanyaan kompleks dengan beragam konteks yang saling terkait, layanan tanya-jawab seperti StackOverflow yang akan menanganinya.

Namun, menurut saya tetap ada tugas besar: apakah LLM benar-benar bisa menyaring informasi yang akurat berdasarkan landasan yang jelas lalu menyediakannya kepada publik.

kuroneko 2023-07-18

Thread HN

Tentu ini studi yang cukup terbatas karena hanya meneliti sebagian situs saja, jadi mungkin ada bias yang besar,
namun pada akhirnya bagian tentang kesenjangan teknologi yang bisa makin melebar dalam berbagai hal memang terasa mengkhawatirkan.

Di komentar ada yang mengatakan, "AI menyebabkan konsentrasi kekayaan dengan mengalihkan uang yang dihasilkan oleh nilai konten yang ditulis orang-orang kepada perusahaan AI,"
dan saya merasa ini cukup mengena.

jujumilk3 2023-07-18

Wah, emoji-nya tidak bisa dipasang ya. Saya setuju.

Apakah model bahasa skala besar akan menjadi ancaman bagi barang publik digital?

Bacaan terkait

5 komentar