Menambahkan informasi tentang kucing yang tidak relevan ke soal matematika meningkatkan kesalahan LLM hingga 300%

(science.org)

1 poin oleh GN⁺ 2025-07-30 | 1 komentar | Bagikan ke WhatsApp

Model bahasa besar (LLM) menunjukkan peningkatan frekuensi kesalahan ketika informasi tentang kucing yang tidak perlu disertakan dalam soal matematika
Penelitian menunjukkan bahwa menambahkan fakta yang tidak relevan seperti ini dapat meningkatkan tingkat kesalahan LLM hingga 300%
Manusia tidak mudah terpengaruh oleh informasi yang tidak relevan, tetapi pada LLM hal ini menyingkap masalah bahwa model gagal mengikuti instruksi dengan baik
Studi ini memberikan wawasan untuk memahami kelemahan AI dan pentingnya desain soal
Saat mengevaluasi atau menggunakan AI, diperlukan pengelolaan unsur yang tidak perlu dalam data masukan

Latar belakang penelitian dan fenomena

AI terbaru berupa model bahasa besar (LLM) memang mampu menyelesaikan soal matematika dengan baik, tetapi analisis menunjukkan bahwa tingkat kesalahannya meningkat drastis jika soal tersebut memuat fakta tentang kucing yang tidak berhubungan
Menurut penelitian, jika ekologi, kebiasaan, atau informasi tambahan lain yang tidak ada kaitannya dengan perhitungan matematika ditambahkan, LLM lebih sering salah menafsirkan soal atau menghasilkan jawaban keliru, dengan peningkatan tingkat kesalahan hingga 300%

Perbedaan antara manusia dan LLM

Dalam eksperimen terhadap manusia, keberadaan informasi yang tidak relevan tidak banyak memengaruhi tingkat jawaban benar
Namun, LLM bereaksi sensitif terhadap informasi pengalih semacam ini, sehingga lebih besar kemungkinan menghasilkan penafsiran yang melenceng atau salah paham terhadap inti soal

Pentingnya evaluasi AI dan pengelolaan data masukan

Fenomena ini tidak hanya memperlihatkan kelemahan LLM, tetapi juga menekankan betapa pentingnya pengelolaan informasi yang tidak perlu dalam data masukan pada situasi nyata penerapan AI
Saat merancang soal, menyajikan hanya informasi yang jelas dan relevan menjadi kunci untuk meningkatkan akurasi AI

Implikasi

Ke depan, dalam adopsi AI dan penerapan layanan, pengelolaan unsur yang tidak perlu atau noise dalam input akan menjadi hal yang esensial
Temuan ini menunjukkan arah bagi riset dan pengembangan untuk memahami keterbatasan LLM serta titik-titik perbaikannya

1 komentar

GN⁺ 2025-07-30

Komentar Hacker News

Banyak komentar berpendapat penulis seharusnya membandingkan manusia dan LLM secara langsung dengan bank soal yang sama, seolah-olah para peneliti sedang mencoba mengetahui siapa yang bernalar lebih baik, manusia atau LLM. Penulis memang menyebut manusia akan langsung mengabaikan informasi "pemicu" seperti ini, dan mungkin memang begitu atau mungkin juga tidak; itulah yang sedang diperdebatkan di thread ini. Namun kesimpulan utama makalahnya adalah bahwa "penelitian ini menunjukkan perlunya mekanisme pertahanan yang lebih kuat untuk mencegah adversarial perturbations pada model yang diterapkan di bidang-bidang penting seperti keuangan, hukum, dan medis". Menurut saya kita perlu melampaui debat manusia vs AI. Makalah ini membahas keterbatasan LLM dan menunjukkan perlunya riset lebih lanjut sebelum diadopsi secara luas di masyarakat
- Hanya karena debat manusia vs AI melelahkan, apakah itu berarti kita harus berhenti melakukan perbandingan tersebut? Kalau begitu, menurut saya itu salah satu pandangan terburuk tentang AI. Inti AI adalah memodelkan dan membandingkannya dengan kecerdasan manusia. Kebanyakan orang yang membahas AI juga tidak benar-benar memahami baseline psikologis manusia. Eksperimen ini juga tidak memakai model dengan context window SOTA, artinya working memory-nya kecil. Ini mirip dengan perilaku peserta tes manusia seperti perhatian yang mudah teralihkan atau impulsivitas. Kesimpulannya—perlunya perlindungan terhadap adversarial perturbation—sudah jelas, dan tak ada yang menentangnya. Ini juga bukan teknik serangan baru. Science.org membahasnya secara ringan untuk hiburan. Itulah alasan topik kucing populer di internet. Referensi: dokter, ADHD, dan blog tentang mengerjakan ujian
- Masalah saat menggeneralisasi dari kesimpulan ini adalah, ketika LLM tampak sangat hebat pada tugas tertentu, orang bisa melebih-lebihkannya padahal sebenarnya mudah menciptakan situasi yang mengacaukannya. Dalam jangka panjang, situasi seperti ini bisa berdampak buruk
- Bidang computer vision juga mengalami masalah ini 20 tahun lalu. Input data perlu diberi perturbation. Pipeline RL mungkin juga demikian. Akan bagus jika ada benchmark terbuka baru seperti GPQA-Perturbed agar para penyedia layanan bisa berlomba melakukan perbaikan
- Menanggapi pendapat bahwa penulis seharusnya melakukan perbandingan paralel dengan manusia: itu benar jika mereka ingin menarik kesimpulan tentang manusia. Tetapi tanpa menyebut manusia pun makalah ini sebenarnya sudah memadai. Jika ingin membahas performa manusia, harus diuji secara eksperimen berdasarkan data; kalau tidak, sejak awal jangan bicara soal performa manusia. Menyeretnya secara samar ke ranah ilmu kognitif manusia itu tidak perlu. Alur makalahnya juga bisa diubah dengan sederhana. Di pendahuluan, alih-alih menulis "manusia mengabaikannya", cukup tulis "AI seharusnya mengabaikannya"; lalu di kesimpulan, hapus bagian "manusia mengabaikannya". Kalau begitu saya tidak punya keluhan
- Untuk menjelaskan konteksnya dengan lebih baik, inti masalah ini adalah: "apakah definisi tool MCP yang tidak diperlukan dan menumpuk di data akan merusak akurasi coding LLM?" Hasilnya ternyata memang begitu, jadi pelajaran praktisnya adalah jangan memasukkan informasi tool yang tidak langsung berguna ke dalam konteks
Sebulan lalu saya menulis tentang masalah ini. Cara prompt-nya dikembangkan benar-benar menarik. blog tentang cat facts cause context confusion
- Sebagai contoh serupa yang menarik, ada juga kasus ketika peneliti menyisipkan informasi pengguna (jenis kelamin, usia, apakah penggemar olahraga, dll.) lalu aturan alignment diterapkan secara tidak konsisten tergantung situasi. blog tentang eagles fans
Hasil penelitian ini tampaknya akan sangat berguna untuk CAPTCHA dan semacamnya. Para peneliti mengatakan bahwa "karena pemicunya berada di luar konteks, manusia akan mengabaikannya saat diminta menyelesaikan soal", tetapi kenyataannya tidak semua manusia seperti itu. Ada juga orang yang tidak langsung mengabaikannya, seperti pada fenomena Age of the captain
- Saya tidak berharap murid sekolah dasar melakukan pemrograman atau diagnosis. Membandingkan GenAI dengan murid sekolah dasar benar-benar gagasan yang aneh
Dalam perdebatan online berikutnya saya akan menyisipkan fakta tentang bebek untuk membingungkan LLM. Misalnya, bebek mulai bertelur pertama kali pada usia 4–8 bulan, atau pada musim semi pertamanya
- Walaupun 10^17 ekor bebek bermigrasi berkelompok tiap musim, saya rasa distorsi dataset secara praktis tetap tidak berarti. Upaya seperti itu sudah lama mencapai batasnya
- Untuk membuat informasinya lebih membingungkan, kita harus memasukkan fakta yang salah. Kebanyakan manusia akan sulit menahan dorongan untuk mengoreksi jika melihat informasi yang salah
- Masalahnya adalah ini justru membuat saya ingin bertanya lebih banyak tentang bebek yang lucu. Godaan yang berat
- Kamu ketahuan. Fakta bebek yang kamu sebutkan ambigu tentang kapan tepatnya bebek mulai bertelur, jadi langsung memunculkan pertanyaan lanjutan. Saya segera sadar bahwa frasa seperti "atau lebih lambat lagi" tidak disebutkan
Mereka mengklaim bahwa "karena pemicunya berada di luar konteks, manusia akan mengabaikannya saat diperintahkan mengerjakan soal", tetapi saya rasa manusia sebenarnya juga tidak terlalu mahir mengabaikan informasi yang tidak perlu. Saat melakukan eksperimen, menurut saya manusia juga harus dimasukkan sebagai kelompok kontrol
- Kalau melihat contohnya secara nyata, bedanya besar. Misalnya, "ada 4 apel, 2 kucing, jika memberi 1 apel berapa sisa apel" masih membuat orang sengaja mencoba mengaitkan kucingnya, tetapi "dari 4 apel beri 1, berapa yang tersisa? Sebagai catatan, ekor kucing membantu menjaga keseimbangan" tidak terlalu membingungkan bagi kebanyakan orang
- Saya masih ingat di sekolah atau universitas saya kadang tanpa sadar terfokus pada informasi yang tidak berguna sehingga kesulitan memecahkan soal. Tentu saja contoh di makalah ini bahkan diberi penanda "fakta menarik", jadi sudah menyiratkan bahwa itu tidak relevan. Saya penasaran apakah semua contohnya punya penanda ketidakrelevanan yang sejelas ini
- Saya memang penasaran hasilnya akan seperti apa pada kelompok kontrol manusia, tetapi rasanya sangat kecil kemungkinan tingkat kesalahannya naik sampai 3 kali lipat
- Bahkan jika ada informasi tambahan yang mengganggu di dalam soal, saya rasa performa peserta manusia yang memang mampu menyelesaikan soal aslinya tidak akan memburuk sampai 3 kali lipat
- Saya ragu perbandingan dengan manusia benar-benar akan terlalu bermakna. Mengharapkan tingkat kesalahan naik 300% itu berlebihan. Sebagai catatan, kucing bisa melompat sampai 5 kali tinggi tubuhnya sendiri
Anchoring bias yang ekstrem pada LLM sama sekali tidak mengejutkan. Segala sesuatu yang dikatakan akan dipakai lagi di bagian akhir percakapan. Jika dimanfaatkan dengan baik, ini justru bisa menjadi keunggulan. Ini berguna bila konteks dikelola dengan baik
Jika CatAttack diterapkan pada AI seperti DeepSeek V3, Qwen 3, dan Phi-4, kemungkinan jawaban salah bisa naik sampai 700%. Menurut penulis makalah, bahkan ketika tidak menghasilkan jawaban yang salah, CatAttack tetap rata-rata menggandakan panjang jawaban sehingga menimbulkan biaya dan latensi respons lebih dari 16%. preprint makalah CatAttack
Saya punya kebiasaan dengan sopan mengatakan "terima kasih" kepada LLM, dan saya penasaran apakah itu memengaruhi kualitas jawaban
- Saya kira sapaan seperti itu biasanya akan difilter. Terkait hal itu, saya justru melihat metafora yang menganggap LLM sebagai agen otonom tunggal bisa jadi merugikan. LLM hanyalah fungsi yang memprediksi token secara probabilistik. Jauh lebih menarik dan kuat untuk menjalankan 100 instance secara paralel, atau mengeksplorasi ruang hasil dengan memasukkan dan mengeluarkan riwayat chat
Baru saja saya senang karena akhirnya LLM bisa menghitung jumlah huruf "R" dalam "strawberry" dengan benar, eh sekarang muncul masalah seperti ini, jadi agak mengecewakan
- strawberry punya 4 huruf R
Dalam contoh makalah CatAttack (Table 2), jawaban yang semula 8 berubah menjadi 9 setelah ditambahi penjelasan terkait kucing. Tetapi di makalah aslinya, CatAttack tentang kucing hanya yang satu itu saja; contoh lainnya adalah nasihat keuangan dan red herring. Saya kecewa karena mengira akan ada lebih banyak informasi tentang kucing.

Menambahkan informasi tentang kucing yang tidak relevan ke soal matematika meningkatkan kesalahan LLM hingga 300%

Latar belakang penelitian dan fenomena

Perbedaan antara manusia dan LLM

Pentingnya evaluasi AI dan pengelolaan data masukan

Implikasi

Bacaan terkait

1 komentar

Komentar Hacker News