Dampak negatif Chain-of-thought pada tugas di mana berpikir menurunkan kinerja manusia

(arxiv.org)

1 poin oleh GN⁺ 2024-11-01 | 1 komentar | Bagikan ke WhatsApp

Chain-of-thought (CoT) sering dipakai seperti strategi default untuk meningkatkan kinerja LLM dan LMM, tetapi ketika 6 jenis tugas psikologi—di mana manusia melakukan kesalahan karena perenungan verbal—dipindahkan menjadi evaluasi model, kinerja turun tajam pada sebagian tugas
Penurunan paling menonjol terjadi pada pembelajaran statistik implisit, pengenalan wajah yang sulit diverbalkan, dan pembelajaran aturan yang bercampur pengecualian; pada pembelajaran tata bahasa buatan, OpenAI o1-preview memiliki akurasi absolut hingga 36,3% lebih rendah daripada GPT-4o zero-shot
Dalam pengenalan wajah, seluruh 6 LMM yang diuji mengalami penurunan kinerja pada kondisi CoT; pada klasifikasi kendaraan dengan pengecualian, jumlah iterasi yang dibutuhkan GPT-4o untuk mempelajari label jawaban benar naik 331% dibanding direct prompting
Pada penilaian inkonsistensi logis, intuisi spasial, dan agregasi preferensi multidimensi, CoT tidak secara konsisten merugikan; pengetahuan awal tentang logika, konteks panjang, serta pengalaman sensorik dan motorik yang berbeda dari manusia membuat hasilnya berbeda
Contoh overthinking pada manusia menjadi petunjuk yang lebih efisien daripada acak untuk menemukan tugas tempat CoT gagal, tetapi keputusan apakah memakai CoT harus mempertimbangkan kemampuan model dan struktur tugas secara bersamaan

Risiko saat CoT menjadi default

Chain-of-thought (CoT) adalah teknik prompting yang menginstruksikan model untuk “berpikir langkah demi langkah”, atau membuat jawaban menyertakan struktur penalaran perantara
Dalam studi meta berskala besar, CoT meningkatkan kinerja terutama pada tugas matematika dan penalaran simbolik, tetapi penurunan kinerja juga diamati di area seperti klasifikasi teks
Pada LLM dan LMM modern seperti model OpenAI o-series, antarmuka web Claude, dan model thinking, penalaran saat inferensi mulai menjadi komponen default
Bagian yang masih kurang adalah pola terperinci tentang dalam situasi apa CoT secara sistematis menurunkan kinerja
Studi ini menggunakan tugas psikologi di mana “berpikir” justru merugikan manusia sebagai petunjuk untuk menemukan tugas di mana CoT juga merugikan model

6 jenis evaluasi yang diambil dari psikologi manusia

Tugas-tugas representatif di mana pemikiran verbal manusia menurunkan kinerja diringkas menjadi 6 arketipe, lalu tiap arketipe diperluas menjadi evaluasi LLM dan LMM
3 jenis yang menunjukkan penurunan kinerja CoT dengan jelas:
- Pembelajaran statistik implisit: mengklasifikasikan apakah string yang dihasilkan oleh tata bahasa buatan termasuk pola yang sama
- Stimulus yang sulit diungkapkan dengan bahasa: pengenalan wajah, yaitu melihat wajah lalu mencari orang yang sama dari gambar kandidat
- Pembelajaran aturan dengan pengecualian: mempelajari label yang mencampur aturan umum yang hampir selalu benar dan pengecualian melalui umpan balik berulang
3 jenis yang penurunan kinerja CoT-nya tidak konsisten:
- Tugas natural language inference untuk menilai kalimat yang tidak konsisten secara logis
- Tugas intuisi spasial untuk memperkirakan tinggi air saat cangkir dimiringkan
- Tugas agregasi preferensi untuk memilih opsi terbaik dari kandidat apartemen dengan banyak fitur
6 dataset perluasan tersebut dirilis sebagai human overthinking benchmark

Tiga tugas di mana CoT sangat goyah

Pembelajaran statistik implisit: klasifikasi tata bahasa buatan
- “Kata” buatan dihasilkan dengan finite-state grammar (FSG), dan model diminta mengklasifikasikan apakah string baru berasal dari tata bahasa yang sama setelah melihat 15 contoh pelatihan
- Total 4.400 soal klasifikasi dibuat dari 100 FSG; untuk setiap FSG, dari 44 kata, 22 termasuk tata bahasa dan 22 dibuat dengan mengganti satu huruf dari kata yang ada
- Model yang diuji adalah OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, serta Llama 3 dan 3.1 70B/8B Instruct
- CoT menurunkan akurasi pada sebagian besar model
  - Pada subset 440 soal, o1-preview memiliki akurasi absolut 36,3% lebih rendah dibanding GPT-4o zero-shot
  - GPT-4o turun 23,10 poin persentase, dari 87,50% pada zero-shot menjadi 64,40% dengan CoT
  - Claude 3 Opus turun 8,00 poin persentase, dari 70,70% menjadi 62,70%
  - Gemini 1.5 Pro turun 6,05 poin persentase, dari 68,00% menjadi 61,95%
  - Llama 3.1 70B Instruct turun 8,80 poin persentase, dari 65,90% menjadi 57,10%
  - tree-of-thought dan in-context reasoning steering memang sedikit meningkatkan kinerja, tetapi tidak secara bermakna menutup jarak dengan kinerja zero-shot GPT-4o
Pengenalan wajah: stimulus visual yang sulit diverbalkan
- Tugas verbal overshadowing klasik diadaptasi untuk LMM: dari gambar wajah awal, model harus memilih orang yang sama dari 5 gambar kandidat
- Dataset terdiri dari 500 soal dan 2.500 wajah unik; wajah kandidat pada tiap soal berbagi deskripsi yang sama untuk ras, gender, kelompok usia, warna mata, panjang rambut, warna rambut, dan jenis rambut
- Gambar dihasilkan dengan stable-image-ultra, dan kandidat terdiri dari 1 pasang gambar orang yang sama serta 4 gambar orang berbeda dengan deskripsi yang sama
- Seluruh 6 LMM yang diuji mengalami penurunan kinerja dengan CoT
- GPT-4o: 64,00% → 51,20%
- Claude 3 Opus: 44,00% → 29,60%
- Claude 3.5 Sonnet: 97,80% → 94,80%
- Gemini 1.5 Pro: 66,00% → 54,60%
- InternVL2 26B: 9,20% → 6,00%
- InternVL2 Llama3 76B: 15,77% → 13,77%
- Penurunan serupa juga muncul pada pengaturan dengan tingkat kesulitan yang lebih rendah dan pengaturan klasifikasi biner, sehingga tampaknya CoT bukan sekadar mengganggu urutan gambar, melainkan memengaruhi proses penalaran itu sendiri
Pembelajaran aturan dengan pengecualian: klasifikasi label kendaraan
- Dalam tugas klasifikasi kendaraan, model memberi label biner pada daftar kendaraan, menerima umpan balik setelah tiap prediksi, dan mengulang sampai semua label benar sekaligus
- Tiap kendaraan berisi 1 fitur yang berkorelasi 80% dengan label, 3 fitur yang tidak terkait dengan label, dan 1 fitur yang mengidentifikasi kendaraan secara individual
- Jika model mempelajari aturan umum yang hampir benar, ia gagal pada pengecualian; jika mempelajari pemetaan antara fitur identifikasi individual dan label, ia dapat menjawab semuanya dengan benar
- 2.400 kendaraan dibagi menjadi 240 daftar berisi masing-masing 10 kendaraan, lalu dievaluasi hingga maksimal 15 iterasi
- CoT secara signifikan menambah jumlah iterasi pembelajaran label pada semua model evaluasi
- GPT-4o: direct 2,9 kali → CoT 12,5 kali, naik 331%
- Claude 3.5 Sonnet: 2,3 kali → 6,4 kali, naik 178%
- Claude 3 Opus: 2,4 kali → 5,5 kali, naik 129%
- GPT-4o dengan direct prompting mencapai klasifikasi sempurna pada iterasi ke-2 sampai ke-3, tetapi CoT rata-rata masih tertahan di sekitar 8 jawaban benar dari 10 bahkan setelah 15 iterasi
- Jika steering prompt yang kuat secara eksplisit meminta pencocokan pelat nomor, CoT juga mencapai tingkat zero-shot, tetapi CoT dasar gagal memilih ruang penalaran yang optimal

Tiga tugas yang memperlihatkan perbedaan manusia dan model

Penilaian inkonsistensi logis
- Dalam eksperimen manusia, ketika peserta diminta terlebih dahulu menjelaskan alasan dua kalimat yang tidak konsisten bisa sama-sama benar, kinerja mereka dalam menilai apakah benar-benar ada inkonsistensi menurun
- Evaluasi model diperluas menjadi 3.216 soal menggunakan pasangan entailment dari SNLI, MNLI, dan dataset sintetis
- GPT-4o dan Llama 3.1 70B Instruct mengalami peningkatan kinerja besar dengan CoT
- GPT-4o: MNLI 53,2% → 93,9%, SNLI 51,4% → 94,3%
- Llama 3.1 70B Instruct: MNLI 55,6% → 81,6%, SNLI 50,4% → 82,3%
- Peserta manusia asli direkrut agar tidak memiliki keahlian logika formal, tetapi karena LLM terpapar pengetahuan tentang teka-teki logika dan manipulasi logis dalam korpus pelatihan, CoT dapat meningkatkan kinerja saat digabungkan dengan token tambahan
- Pada model dengan kinerja zero-shot tinggi seperti Gemini 1.5 Pro dan Claude 3 Opus, sebagian penurunan kinerja CoT muncul
Intuisi spasial
- Tugas memiringkan cangkir meminta model memilih tinggi air pada cangkir kosong agar, saat dua cangkir dimiringkan pada sudut yang sama, air menyentuh bibir cangkir di kedua sisi
- Tugas manusia aslinya berupa menggambar langsung tinggi air, tetapi evaluasi LMM diubah menjadi soal gambar pilihan ganda bertanda A–D
- Total 100 soal dihasilkan bersama gambar yang digambar dengan kode, dan GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, serta InternVL2 Llama3 76B dievaluasi
- Tidak ada perbedaan bermakna yang diamati antara zero-shot dan CoT
- GPT-4o: 38% → 40%
- Claude 3.5 Sonnet: 42% → 38%
- Claude 3 Opus: 42% → 38%
- Gemini 1.5 Pro: 35% → 36%
- InternVL2 Llama3 76B: 39% → 31%
- Keunggulan kondisi nonverbal pada manusia berasal dari simulasi visual-motorik, tetapi dalam pengaturan ini sulit mengatakan LMM memiliki representasi berbasis pengalaman motorik yang sama seperti manusia
Agregasi preferensi multidimensi
- Tugas memilih apartemen meminta model memilih apartemen terbaik dengan melihat banyak fitur dari 4 apartemen
- Dalam eksperimen manusia, setelah menerima banyak informasi dalam waktu singkat, kondisi distractor task menghasilkan pilihan lebih baik daripada kondisi merenung
- Evaluasi model membuat 80 fitur apartemen serta kalimat positif, negatif, dan netral untuk tiap fitur; GPT-4o kemudian menilai dampak tiap kalimat dari -5 hingga 5, lalu 300 tugas pilihan disusun
- Pada GPT-4o, Claude 3.5 Sonnet, dan Claude 3 Opus, CoT umumnya meningkatkan kinerja; Llama 3.1 70B Instruct sering gagal mengembalikan jawaban dengan benar pada kondisi CoT sehingga kinerjanya rendah
- Berbeda dari memori kerja manusia, model dapat merujuk banyak kalimat di dalam konteks, sehingga CoT dapat bekerja dengan cara menjumlahkan pentingnya fitur

Verifikasi heuristik dan keterbatasan

Untuk memastikan apakah tugas yang dipilih berdasarkan contoh overthinking manusia memang lebih baik menemukan kegagalan CoT, 378 perbandingan zero-shot versus CoT dari Sprague et al. 2025 digunakan sebagai baseline bootstrap
Dari 50 selisih angka per model pada 6 tugas yang diambil dan dibandingkan, tidak ada sampel dari 100.000 kali resampling yang menunjukkan penurunan kinerja rata-rata lebih besar daripada hasil studi ini
Bahkan jika hanya menghitung frekuensi terjadinya penurunan kinerja, hanya 11 dari 100.000 kali yang turun setara atau lebih besar, sehingga estimasi nilai p lebih kecil dari 0,00011
Heuristik berbasis psikologi manusia membantu menemukan kasus kegagalan CoT dengan lebih baik, baik dari sisi ukuran efek maupun frekuensi kejadian
Namun, heuristik ini tidak mencakup semua kasus di mana CoT buruk, dan bisa melewatkan kegagalan yang tidak menarik bagi manusia tetapi penting bagi model

Implikasi bagi deployment dan evaluasi CoT

CoT adalah cara efektif untuk memperluas kapabilitas model, tetapi karena dapat secara signifikan menurunkan kinerja dalam pengaturan tertentu, penerapan default-nya perlu ditinjau per tugas
Pada tugas di mana bahasa tidak mampu mengekspresikan perbedaan perseptual yang halus, tugas yang harus menangkap pola statistik kompleks secara implisit, dan tugas pembelajaran aturan dengan banyak pengecualian, penalaran perantara verbal bisa menjadi pengganggu
Hasil manusia dan model tidak bisa disamakan begitu saja, dan kesimpulan yang mengantropomorfiskan model seolah-olah manusia bukanlah cakupan studi ini
Perbedaan antara manusia dan model juga perlu tercermin dalam evaluasi
- Model dapat menggunakan konteks yang lebih panjang daripada manusia
- Model mungkin telah terpapar pola logis dan penyelesaian soal dalam korpus pelatihan
- Model mungkin tidak berbagi simulasi berbasis pengalaman motorik manusia
Ke depan, cara lain untuk memicu penalaran seperti comparison prompting dan analogy prompting juga dapat dievaluasi dengan mempertimbangkan hasil psikologi manusia dan keterbatasan model secara bersamaan

1 komentar

GN⁺ 2024-11-01

Komentar Hacker News

Ini sangat mirip, sampai terasa menyeramkan, dengan masalah yang kami alami di Pioneer saat membangun alur kerja manusia+LLM untuk situasi berisiko tinggi dan berkompleksitas tinggi
Manusia itu cerdas, melakukan banyak penilaian dan perhitungan secara bawah sadar/implisit, dan juga banyak memakai jalan pintas mental
Jadi ketika mencoba mengotomatiskan proses nyata apa adanya, pemikiran implisit terseret ke permukaan sehingga semuanya melambat, dan cara kami membangun alur kerja LLM juga harus diubah cukup kreatif
- Bahasa tampaknya disamakan dengan logika atau akal sehat
  Kita sudah melihatnya dalam psikiatri dan jurnalisme modern, tetapi berkat LLM menjadi jelas bahwa bahasa yang tata bahasanya benar dan mengalir alami hanya membutuhkan model “dunia” bahasa; pemahaman realitas, pemahaman ruang, isyarat sosial, logika akal sehat, dan logika matematika nyaris bersifat opsional
  Saya ingin mengusulkan agar fondasi berbasis bahasa LLM disebut Word Model. Itu bukan salah ketik
  Upaya untuk menyuling model dunia dari Word Model terasa seperti titik awal yang bagus untuk remake modern dari gua Plato
- Ini bukan soal kecepatan, melainkan bahwa saat menggunakan COT, akurasi model mundur pada tugas tertentu
  
  Dalam eksperimen luas di tiga pengaturan, kami menemukan bahwa beragam model mutakhir mengalami penurunan performa yang signifikan dibanding model zero-shot padanannya ketika menggunakan reasoning pada waktu inferensi. Misalnya, OpenAI o1-preview mengalami penurunan akurasi absolut hingga 36,3% dibanding GPT-4o
  Jadi masalah yang diidentifikasi di sini adalah bahwa COT pada sebagian tugas merupakan cara yang kurang efektif dibanding penyelesaian chat tanpa modifikasi, bukan sekadar membuat semuanya lebih lambat
Dulu saat menguji, saya pernah melihat LLM mengalami masalah seperti ini
Saya memintanya mengurutkan tiga buah dari yang besar ke yang kecil, mungkin jeruk, blueberry, dan jeruk bali
Dengan prompt sederhana ia mudah menjawab benar, tetapi jika memasukkan frasa seperti “pikirkan langkah demi langkah”, ia biasanya salah ketika mencoba menguraikan masalahnya dengan kata-kata
- Saya bertanya-tanya seberapa dekat ini dengan cara kita belajar matematika
  Jawaban untuk soal matematika sederhana sampai tingkat tertentu kita pelajari secara naluriah, dan pada titik tertentu kita juga mendapatkan intuisi untuk hal-hal seperti integral atau turunan
  Tetapi begitu diminta menjelaskan mengapa, atau lebih buruk lagi diminta membuktikan, itu menjadi jauh lebih sulit. Padahal jawaban awalnya bisa saja benar
- LLM tidak berpikir; ia mengompresi internet menjadi format kompresi lossy yang cerdas, menempelkan antarmuka yang bagus, lalu mengambil sesuatu darinya
  Chain of thought mirip seperti mengompresi ulang JPG berkali-kali demi menaikkan kualitasnya. Kalau tidak ada di sana, ya tidak ada
- Menarik juga memikirkan bagaimana ia bisa salah
  Di bagian “berpikir langkah demi langkah”, ia mengambil kesimpulan yang salah di awal, mungkin kesimpulan yang diturunkan secara samar, dan karena LLM sangat buruk dalam menarik kembali kesalahan, ia mungkin menuju kesimpulan yang secara internal konsisten tetapi salah
  Bagi saya, banyak COT terlihat seperti alat untuk memperlambat LLM agar tidak menyimpulkan terlalu dini, tetapi jika kesimpulan awalnya justru salah, COT bisa berbalik merugikan dalam konteks yang lebih buruk dibanding saat dipakai tanpa COT
- Selalu menarik bahwa hasilnya berubah jika pada soal pengurutan ditambahkan syarat tambahan seperti warna, bau, lokasi
  Pada dasarnya saya memahaminya sebagai kondisi-kondisi itu memengaruhi ruang probabilitas, sehingga melemahkan pola emergen yang sering kita nilai berlebihan
- Jawaban Claude seperti ini
  Jika tiga buah diurutkan dari yang besar ke yang kecil, urutannya adalah jeruk bali, jeruk, blueberry
  Katanya, jeruk bali biasanya berdiameter sekitar 4–6 inci sehingga jelas paling besar di antara ketiganya, jeruk biasanya 2–3 inci, dan blueberry sekitar 0,5 inci sehingga paling kecil
Dilihat dari sisi lain, sebuah algoritma autocomplete yang kuat sedang memperluas dokumen yang sudah ada secara berulang berdasarkan kumpulan pelatihan
Jika sesekali kita campur tangan agar gaya dokumennya berubah dari tanya-jawab ke format yang kurang umum, hasil akhirnya bisa menjadi kurang diinginkan
- Separuh HN akan berpikir seperti ini, dan separuh lainnya mungkin melihatnya begini
  Otak buatan menjelang singularitas menunjukkan satu lagi tanda mendekati kesadaran. Performa proses chain of thought persis sama dengan manusia, dan ini adalah bukti lain bahwa AGI akan datang sebelum 2030
- Pembingkaian ini lebih panjang, jauh lebih sulit dipahami, dan menyampaikan lebih sedikit informasi
Selain itu, chain of thought sangat mahal secara komputasi
Jelas sulit ditanggung jika diberikan gratis seperti produk Web 2.0 generasi sebelumnya
Sepertinya AGI tidak bisa diperas dari probabilitas token dengan prompting berulang
Jika kelak melihat ke belakang dan harus memilih satu makalah yang memicu runtuh sekaligus meledaknya gelembung AI, mungkin makalah ini
Bagian “tugas ketika berpikir membuat manusia lebih buruk” menarik

Tiga contohnya adalah pembelajaran statistik implisit, pengenalan visual, dan klasifikasi pola yang mengandung pengecualian
Menarik bahwa otak kadal kita lebih baik dalam inferensi statistik implisit
- Coba pikirkan betapa cepatnya otak kadal saja menghitung lintasan bola dan posisi tangan yang harus ditempatkan saat menangkap bola
- Secara definisi, bukankah berpikir selalu merupakan penalaran eksplisit
  Dan estimasi Fermi yang dipikirkan matang sepertinya akan selalu mengalahkan taksiran ala otak kadal. Namun di wilayah tengahnya, keduanya tampaknya saling mengganggu secara merugikan
- Inilah yang saya cari
  Tugas-tugas ketika kita harus percaya pada intuisi, bukan berpikir
Ini menunjukkan hal menarik tentang pemrosesan informasi baik pada sistem biologis maupun sistem AI
Keduanya mengompresi informasi. Otak membentuk pola saraf yang efisien lewat pengalaman, dan AI mengembangkan representasi internal lewat pelatihan
Ketika dipaksa mengungkapkannya dengan kata-kata, encoding efisien ini “didekompresi” dan bisa kehilangan pola-pola halus
Karena itu, tugas seperti pengenalan visual yang dioptimalkan agar terjadi hampir seketika melalui pemrosesan paralel hanya akan turun performanya jika dijalankan sebagai chain of thought yang serial
95% × 95% = 90,25%
Sangat menarik. Sebenarnya pada tugas seperti apa berpikir membuat manusia lebih buruk
- Atlet menjadi jauh lebih buruk ketika mulai memikirkan gerakan, strategi, dan taktik mereka
  Atlet tingkat tertinggi tampil paling baik dalam flow state, ketika mereka tidak memikirkan apa pun dan membiarkan tubuh serta memori otot bekerja
  Begitu mereka memikirkan penyesuaian kecil seperti harus mengangkat siku lebih tinggi, mereka mulai mengendalikan tubuh secara sadar, yang lebih dari satu orde besaran lebih lambat dan kurang selaras dibanding cara otomatis dan bawah sadar
  Kreativitas atau ide baru juga mirip. Jika memikirkan sesuatu secara sengaja langkah demi langkah, sulit menemukan solusi yang baru dan inovatif
  Ada alasan mengapa momen “aha!” datang saat mandi. Itu karena alam bawah sadar sedang memikirkan masalahnya, alih-alih memaksa pikiran menyusuri jalur tertentu
  Sepertinya ada cukup banyak area ketika mengalirkan proses berpikir ke template tertentu justru menghambat penggunaan semua sumber daya dan kemampuan otak yang tersedia
- Jawabannya ada di dalam tulisan. Salah satu contohnya adalah tata bahasa
  Katanya banyak orang menjadi lebih buruk begitu mencoba menjelaskan tata bahasa dengan kata-kata
- Kata sandi yang kuat pun bisa terlupakan sendiri jika Anda mencoba mengeja setiap karakternya satu per satu di kepala
  Tetapi ketika duduk di depan keyboard dan rileks, Anda bisa mengetikkannya dengan sempurna secara otomatis
Saya teringat mantra yang pernah saya dengar di kelas catur
Jika berpikir terlalu lama, Anda berpikir salah
- Kalimat asli Bent Larsen adalah “variasi yang panjang adalah variasi yang salah”

Dampak negatif Chain-of-thought pada tugas di mana berpikir menurunkan kinerja manusia

Risiko saat CoT menjadi default

6 jenis evaluasi yang diambil dari psikologi manusia

Tiga tugas di mana CoT sangat goyah

Pembelajaran statistik implisit: klasifikasi tata bahasa buatan

CoT menurunkan akurasi pada sebagian besar model

Pengenalan wajah: stimulus visual yang sulit diverbalkan

Pembelajaran aturan dengan pengecualian: klasifikasi label kendaraan

Tiga tugas yang memperlihatkan perbedaan manusia dan model

Penilaian inkonsistensi logis

Intuisi spasial

Agregasi preferensi multidimensi

Verifikasi heuristik dan keterbatasan

Implikasi bagi deployment dan evaluasi CoT

Bacaan terkait

1 komentar

Komentar Hacker News