- Menurut hipotesis LLM Brain Rot, paparan terus-menerus terhadap teks web berkualitas rendah dapat membuat LLM mengalami penurunan kemampuan kognitif
- Pada hasil eksperimen, pada LLM yang dilatih tambahan dengan data berkualitas rendah diamati penurunan penalaran, pemahaman konteks panjang, dan keamanan, serta peningkatan “ciri gelap”
- Semakin besar proporsi data junk, semakin parah pula penurunan kemampuan kognitif
- Dalam analisis kesalahan, fenomena utama yang terlihat adalah pelewatan proses berpikir (melewati proses penalaran sebab-akibat)
- Pemulihan parsial mungkin dengan data berkualitas tinggi dan tuning, tetapi pemulihan penuh sulit dicapai
Gambaran Penelitian
- Penelitian ini mengusulkan dan memverifikasi LLM Brain Rot Hypothesis (hipotesis kemunduran otak)
- Mengamati secara eksperimental apakah kemampuan kognitif menurun dalam jangka panjang ketika LLM (model bahasa besar) terus-terusan terpapar teks web berkualitas rendah (junk)
- Untuk memisahkan penyebab dan memastikan efeknya, kami membandingkan data terkontaminasi (junk) dan data kontrol dari kumpulan data mentah Twitter/X menggunakan dua pendekatan (M1: berbasis keterlibatan, M2: berbasis kualitas semantik)
- Kedua pendekatan diseimbangkan agar jumlah token dan kondisi pelatihan sama, sehingga perubahan kualitas data menjadi variabel independen tunggal
Hasil Eksperimen Utama
- Setelah melakukan pre-training tambahan pada 4 LLM menggunakan data berkualitas rendah, terlihat jelas penurunan kemampuan kognitif pada metrik seperti penalaran, pemahaman konteks panjang, dan keamanan
- Peningkatan skor “dark traits” (psikopati, narsisme, dll.) juga teramati
- Contohnya pada pengaturan M1, metrik ARC-Challenge berbasis Chain Of Thoughts turun dari 74.9 → 57.2 dan RULER-CWE dari 84.4 → 52.3; semakin tinggi proporsi data junk, penurunan skor semakin mencolok
- Ditemukan fenomena 'dosis-reaksi' (dose-response): semakin ditingkatkan proporsi data junk secara bertahap, semakin dalam juga tingkat kemunduran kemampuan kognitif
Analisis Penyebab Kesalahan
- Kecenderungan mengabaikan proses berpikir (thought-skipping) muncul sebagai pola degenerasi utama
- LLM makin sering melewati atau menghapus tahapan penalaran, sehingga kesalahan meningkat
- Pemulihan parsial: retraining dengan instruction tuning dan data berkualitas tinggi dapat memulihkan sebagian besar penurunan kognitif, namun sulit mencapai tingkat baseline, yang menunjukkan bahwa ini bukan disebabkan oleh ketidaksesuaian format, melainkan karena perubahan representasi (Representation)
- Popularitas Lebih Kuat dari Gaya: popularitas tweet (metrik non-berbasis makna) memberikan sinyal yang lebih kuat terhadap dampak brain rot pada M1
Kesimpulan dan Implikasi
- Kualitas data terbukti menjadi penyebab utama kemunduran kemampuan LLM berdasarkan berbagai analisis
- Dalam fine-tuning berkelanjutan LLM, kurasi data didefinisikan kembali sebagai isu “keamanan tahap pelatihan”
- Merekomendasikan perlunya pemeriksaan berkala “kesehatan kognitif” pada LLM yang sedang dioperasikan
1 komentar
Komentar Hacker News
Mengaitkan istilah “Brain Rot” dengan masalah kurasi data LLM terasa agak sok, malah terlintas pikiran bahwa penulisnya sendiri mungkin sudah terjerumus dalam cara berpikir ala LLM
Kalau kamu penasaran dengan data pelatihan LLM, aku sarankan ambil data Common Crawl secara acak lalu lihat langsung (sekitar 100MB)
https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
Waktu dibuka, juga banyak data bermasalah yang tak enak dibahas di sana; tentu saja di produksi nanti ada pra-pembersihan yang menyaring, tapi karena beberapa model base/text seperti Llama pernah mengeluarkan hasil yang mengejutkan, jadi belum jelas seberapa ketat penyaringannya
Akhirnya, melihat LLM jadi makin jelek karena dimasukkan data sampah bukanlah temuan baru; rasanya tidak mengejutkan
Dua isu besar yang disebutkan dalam paper adalah
Saat membaca, muncul kesan “semua orang sudah tahu data latih itu berantakan, tapi gak banyak yang benar-benar peduli”; jadi ketika model jadi bodoh karena makan data berantakan, orang membuat drama seolah-olah terkejut—terasa seperti sesuatu yang sebenarnya bisa kita duga tanpa penelitian ini
Aku rasa analogi “cognitive hygiene” (kebersihan kognitif) tidak tepat, karena LLM tidak punya kemampuan kognitif sehingga juga bukan metafora yang akurat. Intinya, data provider memasukkan data murahan, termasuk data berbahaya dan data berhak cipta, yang menyebabkan masalah
Teks brain rot memang bisa berbahaya, tapi video brain rot mungkin justru mengerikan sekaligus kaya makna dan bahkan bisa menjadi titik perbaikan performa (lihat video analisis brain rot dari Jerman), karya seperti Svankmajer juga “proto-brainrot” yang bikin terus-menerus direnungkan di museum Juga ada kebingungan istilah di sini: sebenarnya perbedaannya antara konten yang miskin dan konten yang padat makna
Pada akhirnya, ini kelihatan seperti “garbage in, garbage out” versi baru, seolah-olah cuma judul clickbait
Dari paper ini, yang perlu dicatat adalah
Menurutku, memakai metafora “brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” di paper computer science tidak tepat. Secara perbandingan istilah ini tidak akurat, dan ada risiko memproyeksikan sifat manusia ke model komputer. Kalau atmosfer riset terlanjur terpengaruh oleh istilah-istilah ini, justru bisa jadi lebih merepotkan untuk menyingkirkannya
Dengan membaca paper ini jadi penasaran dengan dampak jangka panjang anak-anak generasi Alpha yang tumbuh di lingkungan media