1 poin oleh GN⁺ 2025-10-22 | 1 komentar | Bagikan ke WhatsApp
  • Menurut hipotesis LLM Brain Rot, paparan terus-menerus terhadap teks web berkualitas rendah dapat membuat LLM mengalami penurunan kemampuan kognitif
  • Pada hasil eksperimen, pada LLM yang dilatih tambahan dengan data berkualitas rendah diamati penurunan penalaran, pemahaman konteks panjang, dan keamanan, serta peningkatan “ciri gelap”
  • Semakin besar proporsi data junk, semakin parah pula penurunan kemampuan kognitif
  • Dalam analisis kesalahan, fenomena utama yang terlihat adalah pelewatan proses berpikir (melewati proses penalaran sebab-akibat)
  • Pemulihan parsial mungkin dengan data berkualitas tinggi dan tuning, tetapi pemulihan penuh sulit dicapai

Gambaran Penelitian

  • Penelitian ini mengusulkan dan memverifikasi LLM Brain Rot Hypothesis (hipotesis kemunduran otak)
  • Mengamati secara eksperimental apakah kemampuan kognitif menurun dalam jangka panjang ketika LLM (model bahasa besar) terus-terusan terpapar teks web berkualitas rendah (junk)
  • Untuk memisahkan penyebab dan memastikan efeknya, kami membandingkan data terkontaminasi (junk) dan data kontrol dari kumpulan data mentah Twitter/X menggunakan dua pendekatan (M1: berbasis keterlibatan, M2: berbasis kualitas semantik)
  • Kedua pendekatan diseimbangkan agar jumlah token dan kondisi pelatihan sama, sehingga perubahan kualitas data menjadi variabel independen tunggal

Hasil Eksperimen Utama

  • Setelah melakukan pre-training tambahan pada 4 LLM menggunakan data berkualitas rendah, terlihat jelas penurunan kemampuan kognitif pada metrik seperti penalaran, pemahaman konteks panjang, dan keamanan
    • Peningkatan skor “dark traits” (psikopati, narsisme, dll.) juga teramati
  • Contohnya pada pengaturan M1, metrik ARC-Challenge berbasis Chain Of Thoughts turun dari 74.9 → 57.2 dan RULER-CWE dari 84.4 → 52.3; semakin tinggi proporsi data junk, penurunan skor semakin mencolok
  • Ditemukan fenomena 'dosis-reaksi' (dose-response): semakin ditingkatkan proporsi data junk secara bertahap, semakin dalam juga tingkat kemunduran kemampuan kognitif

Analisis Penyebab Kesalahan

  • Kecenderungan mengabaikan proses berpikir (thought-skipping) muncul sebagai pola degenerasi utama
    • LLM makin sering melewati atau menghapus tahapan penalaran, sehingga kesalahan meningkat
  • Pemulihan parsial: retraining dengan instruction tuning dan data berkualitas tinggi dapat memulihkan sebagian besar penurunan kognitif, namun sulit mencapai tingkat baseline, yang menunjukkan bahwa ini bukan disebabkan oleh ketidaksesuaian format, melainkan karena perubahan representasi (Representation)
  • Popularitas Lebih Kuat dari Gaya: popularitas tweet (metrik non-berbasis makna) memberikan sinyal yang lebih kuat terhadap dampak brain rot pada M1

Kesimpulan dan Implikasi

  • Kualitas data terbukti menjadi penyebab utama kemunduran kemampuan LLM berdasarkan berbagai analisis
  • Dalam fine-tuning berkelanjutan LLM, kurasi data didefinisikan kembali sebagai isu “keamanan tahap pelatihan”
  • Merekomendasikan perlunya pemeriksaan berkala “kesehatan kognitif” pada LLM yang sedang dioperasikan

1 komentar

 
GN⁺ 2025-10-22
Komentar Hacker News
  • Mengaitkan istilah “Brain Rot” dengan masalah kurasi data LLM terasa agak sok, malah terlintas pikiran bahwa penulisnya sendiri mungkin sudah terjerumus dalam cara berpikir ala LLM

    • Benar-benar terasa seperti kalimat yang ditulis LLM, terutama karena memakai em dash (—) dua kali untuk merinci poin, gaya seperti ini akan cepat dikenali pembaca HN
    • Faktanya, orang HR juga sudah memakai nada seperti ini sejak sebelum LLM hadir: mengecek apakah OKR-nya sudah rapi, apakah berkembang lewat review 360 derajat dengan rekan, mengecek target harian, dan meeting 1:1 dengan manajer—itu gaya HR yang khas
    • Kalau maknanya tersampaikan dengan baik, aku tak mengerti masalahnya meski menulis dengan bantuan LLM; ke mana pun nanti, LLM akan jadi alat menulis yang penting
    • Semakin sering memakai LLM, aku mulai merasakan “kemunduran otak”; kalau cara input dipakai lama, jadi terlalu bergantung pada autocomplete sampai saat nulis kamu lupa kata-kata sendiri. Pada akhirnya, yang penting adalah memasukkan data berkualitas tinggi ke LLM, dan banyak startup agen sedang berusaha menanamkan pengetahuan serta alur kerja berkualitas per-domain ke model besar
    • Meneliti “brain rot” LLM tapi mengabaikan brain rot manusia itu menyedihkan; kalau manusia lebih peduli pada hygiene kognitif, media sosial sekarang pasti akan jauh lebih sehat
  • Kalau kamu penasaran dengan data pelatihan LLM, aku sarankan ambil data Common Crawl secara acak lalu lihat langsung (sekitar 100MB)
    https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
    Waktu dibuka, juga banyak data bermasalah yang tak enak dibahas di sana; tentu saja di produksi nanti ada pra-pembersihan yang menyaring, tapi karena beberapa model base/text seperti Llama pernah mengeluarkan hasil yang mengejutkan, jadi belum jelas seberapa ketat penyaringannya

    • Karpathy juga belakangan sempat bilang sampel Common Crawl itu cuma sampah tak berguna, di sana informasi berkualitas tinggi seperti artikel WSJ sangat langka, jadi melatihnya di situ malah terkesan ajaib
    • Aku beranggapan vendor AI besar akhirnya menyaring data berisiko dengan classifier dan filter terbaru; kalau pun belum sempurna, mereka mengendalikan respons risiko lewat RLHF atau cara serupa. Pada akhirnya, penyaringan dataset dan sourcing data berkualitas berbayar menjadi pembeda dan juga penghalang masuk kecil bagi open source
  • Akhirnya, melihat LLM jadi makin jelek karena dimasukkan data sampah bukanlah temuan baru; rasanya tidak mengejutkan

    • Tetap ada eksperimen pemulihan kerusakan, dan secara riset hal yang penting adalah memverifikasi hipotesis secara langsung. Untuk memberi tahu peneliti seberapa serius isu ini, cara paling efektif tetap publikasi jurnal
    • Karena beredar rumor bahwa data apapun bisa dipelajari asal-asalan, maka perlu ada riset yang menguji hal itu secara nyata
  • Dua isu besar yang disebutkan dalam paper adalah

    • “Thought-skipping” adalah isu utama: sering menghapus langkah menengah proses inferensi
    • “Popularity” lebih terkait dengan brain rot daripada panjang teks; artinya tweet populer memberi sinyal brain rot yang lebih kuat Fenomena ini sebenarnya wajar: budaya pop cenderung melewatkan alasan lalu langsung menyimpulkan, dan kalau model dilatih dari feed Twitter, model pun berubah ke arah itu. Paling tidak perlu adanya dataset pembanding yang bebas dari media sosial
  • Saat membaca, muncul kesan “semua orang sudah tahu data latih itu berantakan, tapi gak banyak yang benar-benar peduli”; jadi ketika model jadi bodoh karena makan data berantakan, orang membuat drama seolah-olah terkejut—terasa seperti sesuatu yang sebenarnya bisa kita duga tanpa penelitian ini

  • Aku rasa analogi “cognitive hygiene” (kebersihan kognitif) tidak tepat, karena LLM tidak punya kemampuan kognitif sehingga juga bukan metafora yang akurat. Intinya, data provider memasukkan data murahan, termasuk data berbahaya dan data berhak cipta, yang menyebabkan masalah

    • Bahkan ungkapan penurunan kognitif pun keliru; yang terjadi bukan kognisi nyata, melainkan simulasi agar terlihat seolah-olah nyata
  • Teks brain rot memang bisa berbahaya, tapi video brain rot mungkin justru mengerikan sekaligus kaya makna dan bahkan bisa menjadi titik perbaikan performa (lihat video analisis brain rot dari Jerman), karya seperti Svankmajer juga “proto-brainrot” yang bikin terus-menerus direnungkan di museum Juga ada kebingungan istilah di sini: sebenarnya perbedaannya antara konten yang miskin dan konten yang padat makna

    • Menurut riset, video brain rot untuk anak tidak memberi dampak positif, lihat artikel terkait Cocomelon, dan yang lain, sedangkan konten yang cukup matang dalam ‘produksi’ justru dianggap jauh dari spektrum brain rot
    • Dalam hal ini, penggunaan AI sebagai alat memanipulasi manusia (sengaja atau tidak, karya seni pun merupakan bentuk manipulasi) lebih merupakan risiko yang jauh lebih penting dibandingkan pengolahan informasi teknis. Yang mengkhawatirkan adalah brain rot buatan LLM dan desain model yang ingin menyenangkan manusia, makin menyeramkan ketika proses anthropomorphization makin mirip manusia
  • Pada akhirnya, ini kelihatan seperti “garbage in, garbage out” versi baru, seolah-olah cuma judul clickbait

    • Mayoritas prinsip GIGO (garbage in, garbage out) tetap berlaku juga untuk pelatihan LLM
      Dari paper ini, yang perlu dicatat adalah
      • Kualitas pretraining yang buruk tidak bisa sepenuhnya ditutupi meski post-training minim; misalnya meski secara sintaksis tampak rapi, kebiasaan buruk implisit seperti thought-skipping bisa sudah mengakar
      • Menentukan apa itu “data buruk” juga bukan persoalan mudah; heuristic berbasis engagement pengguna justru lebih cocok dibanding klasifikasi konten LLM dalam kasus ini
    • “Attention is all you need.”
    • Bayangan ChatGPT yang dikuasai meme brain rot atau meme internet seperti “Skibidi Toilet” agak lucu
    • Realitas sekarang adalah pelatihan LLM—baik metode ini baik atau tidak—tetap memakai campuran masif data sampah dan data baik; meski ini terlihat sepele, aku rasa ini pantas mendapat sorotan ulang pada waktunya
    • Ditambah lagi dengan adanya proses lanjutan
  • Menurutku, memakai metafora “brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” di paper computer science tidak tepat. Secara perbandingan istilah ini tidak akurat, dan ada risiko memproyeksikan sifat manusia ke model komputer. Kalau atmosfer riset terlanjur terpengaruh oleh istilah-istilah ini, justru bisa jadi lebih merepotkan untuk menyingkirkannya

  • Dengan membaca paper ini jadi penasaran dengan dampak jangka panjang anak-anak generasi Alpha yang tumbuh di lingkungan media

    • Aku juga berpikir kenapa harus dipikirkan cuma untuk anak-anak saja