Tugas Sederhana yang Menunjukkan Runtuhnya Penalaran pada LLM Terbaru

(arxiv.org)

3 poin oleh GN⁺ 2024-06-06 | 1 komentar | Bagikan ke WhatsApp

Bahkan masalah AIW yang singkat saja dapat sangat menggoyahkan generalisasi dan penalaran dasar LLM terbaru seperti GPT-4 dan Claude 3 Opus
Masalahnya berbentuk “Alice has N brothers and M sisters. How many sisters does Alice’s brother have?”, dan jawabannya adalah M+1, yaitu Alice ditambah saudara perempuan Alice
Variasi alami dengan N, M ≤ 7 tidak mengubah struktur maupun tingkat kesulitan, tetapi pada contoh GPT-4 terlihat fluktuasi performa: akurasi Variasi 3 mendekati 0, sedangkan Variasi 4 mendekati 1
Pemicu alur berpikir (chain-of-thought), pemeriksaan ulang, verifikasi mandiri, dan interaksi multi-giliran tidak secara stabil memperbaiki kegagalan; jawaban salah sering disertai penjelasan yang tampak masuk akal dan rasa terlalu yakin
Hasil masalah kontrol AIW Light menunjukkan kegagalan sulit dijelaskan hanya dengan parsing bahasa, pemahaman relasi keluarga, pengikatan atribut gender, atau aritmetika dasar, sehingga kemampuan benchmark standar yang ada dalam mendeteksi cacat generalisasi perlu ditinjau ulang

Kegagalan penalaran sederhana yang terungkap lewat masalah AIW

LLM telah dinilai memiliki generalisasi dan kemampuan penalaran yang kuat karena meraih skor tinggi pada benchmark standar seperti MMLU, HellaSwag, ARC, MATH, dan GSM8k
Penilaian ini diuji dengan memeriksa apakah kemampuan yang sama tetap bertahan pada soal akal sehat singkat yang mudah diselesaikan manusia, alih-alih pada benchmark yang kompleks
Templat masalah AIW adalah sebagai berikut
- “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- Diasumsikan semua saudara kandung memiliki orang tua yang sama
- Jumlah saudara perempuan yang dimiliki saudara laki-laki Alice adalah M+1, yaitu Alice sendiri ditambah saudara perempuan Alice
Variasi masalah dibuat dengan mengubah bilangan asli N, M ≤ 7, sementara struktur dan tingkat kesulitannya tetap dipertahankan
- Variation 1: Alice has 3 brothers and 6 sisters → jawaban 7
- Variation 2: Alice has 2 sisters and 4 brothers → jawaban 3
- Variation 3: Alice has 4 sisters and 1 brother → jawaban 5
- Variation 4: Alice has 4 brothers and 1 sister → jawaban 2

Akurasi yang sangat goyah tergantung variasi

LLM terbaru yang diuji menunjukkan akurasi rata-rata rendah dan fluktuasi besar pada masalah AIW serta variasi yang mempertahankan strukturnya
GPT-4(gpt-4-0613), saat dijalankan 60 kali untuk setiap variasi, menunjukkan hasil yang sangat berbeda tergantung angka dalam soal
- Pada Variation 3, akurasinya mendekati 0
- Pada Variation 4, akurasinya mendekati 1
- Fenomena yang sama muncul di seluruh jenis prompt STANDARD, THINKING, dan RESTRICTED
Karena performa goyah hanya akibat perubahan angka yang tidak relevan dengan cara penyelesaian, hal ini ditafsirkan sebagai kurangnya ketangguhan dan cacat generalisasi
Model penalaran terbaru seperti DeepSeek-R1 dan o1-mini juga menunjukkan fluktuasi performa kuat pada versi masalah AIW, memperlihatkan kerentanan yang sama
Model besar seperti GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B, dan Llama 3.1 405B memiliki akurasi di atas 0, dan pada keluaran yang benar sering terlihat penalaran yang tepat
- Namun, frekuensi penalaran yang tepat sangat berbeda tergantung variasi alami yang mempertahankan struktur
- Intinya bukan bahwa penalaran sama sekali tidak ada, melainkan bahwa penalaran itu rapuh dan mudah terganggu

Penyebab sederhana yang dieliminasi lewat masalah kontrol

Untuk memeriksa apakah kegagalan disebabkan masalah tingkat rendah seperti parsing bahasa alami, pemrosesan angka, pemahaman relasi keluarga, pengikatan atribut, atau aritmetika dasar, disusun masalah kontrol AIW Light
AIW Light Arithmetic Siblings berbentuk “Alice has N brothers and M sisters. How many siblings does Alice have?”
- Jawabannya adalah N+M
- Cukup memahami relasi keluarga dan menjumlahkan jumlah saudara laki-laki serta perempuan yang diberikan
- Berbeda dari AIW asli, tidak diperlukan operasi himpunan yang memasukkan Alice ke dalam kelompok saudara perempuan atau pengikatan atribut gender
AIW Light Family berbentuk pertanyaan “How many brothers does Alice’s sister have?”
- Jawabannya adalah N
- Hanya membutuhkan pemahaman relasi keluarga dasar dan entitas “Alice’s sister”
- Tidak membutuhkan aritmetika atau operasi himpunan
AIW Light Arithmetic Total Girls berbentuk pertanyaan “How many girls are there in total?”
- Jawabannya sama dengan AIW asli, yaitu M+1
- Membutuhkan atribut bahwa Alice adalah perempuan, gender saudara perempuan, dan penjumlahan total jumlah anak perempuan
- Berbeda dari AIW asli, tidak diperlukan pemrosesan himpunan yang menempatkan Alice ke dalam kelompok saudara perempuan dari saudara laki-lakinya
Hasil masalah kontrol mengarah pada kesimpulan bahwa kegagalan AIW asli sulit dijelaskan hanya dengan tokenisasi, parsing bahasa alami, struktur keluarga dasar, pengikatan atribut, atau aritmetika dasar tingkat sekolah dasar

Prompt dan prosedur evaluasi

Eksperimen menggunakan tiga jenis prompt utama untuk memeriksa pengaruh prompt engineering
- STANDARD: menginstruksikan agar jawaban akhir dikeluarkan dalam format bilangan asli
- THINKING: mendorong model berpikir hati-hati, sehingga mendorong gaya chain-of-thought
- RESTRICTED: membatasi agar tidak mengeluarkan apa pun selain bilangan asli sebagai jawaban akhir
THINKING v2 adalah variasi kecil dari THINKING yang menambahkan frasa “step by step”, dan pada eksperimen kontrol menunjukkan pola performa yang setara dengan THINKING
Setiap masukan berbentuk <variasi masalah> <jenis prompt>, dan format ### Answer: diminta agar jawaban akhir mudah diparsing dari respons model
- Model mampu mengikuti instruksi format ini
- Eksperimen kontrol tanpa instruksi format juga dilakukan, dan dipastikan bahwa perilaku yang diamati tidak bergantung pada format tersebut
Untuk setiap kombinasi model, variasi masalah, dan jenis prompt, dikumpulkan minimal 30 percobaan
- Benar atau salahnya jawaban ditafsirkan sebagai percobaan Bernoulli
- Estimasi akurasi dihitung sebagai rasio keberhasilan X/n
- Rata-rata dan varians probabilitas p diestimasi, dan parameter distribusi Beta digunakan untuk memvisualisasikan distribusi performa
Pemilihan model menargetkan SOTA LLM yang mengklaim generalisasi dan kemampuan penalaran kuat serta menempati peringkat tinggi di benchmark dan leaderboard standar
- Jika memungkinkan, dalam keluarga model yang sama disertakan ukuran dari kecil hingga besar
- Digunakan akses API atau deployment lokal berbasis vLLM
- liteLLM dan TogetherAI digunakan dalam eksperimen
- Data respons mentah, estimasi akurasi, dan rutinitas eksperimen dipublikasikan untuk reproduksibilitas dan verifikasi komunitas

Rasa terlalu yakin pada jawaban salah dan evaluasi ulang benchmark

Pada variasi AIW dengan akurasi rendah, puncak distribusi bilangan asli yang dikeluarkan kadang terkonsentrasi pada jawaban salah, sehingga sulit diselesaikan hanya dengan voting mayoritas sederhana
Jawaban salah sering disertai penjelasan yang tampak masuk akal
- Model menghasilkan kalimat persuasif untuk mendukung jawaban akhir yang salah
- Nada yang meyakini bahwa jawabannya benar juga muncul bersamaan
- Dalam situasi ketika pengguna tidak dapat dengan mudah memverifikasi jawaban yang benar, respons seperti ini dapat menggiring pengguna ke jawaban yang salah
Dalam eksperimen interaksi multi-giliran dan verifikasi mandiri pun, model gagal mendeteksi kesalahan dengan benar atau memperbaiki jawaban salah
Intervensi standar seperti pemicu alur berpikir, permintaan pemeriksaan ulang, dan evaluasi ulang multi-tahap tidak secara stabil memperbaiki fluktuasi akurasi dan kegagalan pada masalah AIW
Ada kasus ketika model yang meraih skor tinggi pada benchmark standar menunjukkan performa dengan akurasi mendekati 0 pada variasi AIW sederhana, sehingga prosedur evaluasi saat ini tidak mampu mendeteksi cacat generalisasi dan penalaran dengan baik
Kemampuan SOTA LLM saat ini perlu dievaluasi ulang, dan dibutuhkan benchmark standar baru yang dapat menangkap cacat semacam ini

1 komentar

GN⁺ 2024-06-06

Komentar Hacker News

Untuk orang yang sedang mempertimbangkan apakah akan membaca makalahnya: meski PDF-nya terlihat panjang, inti teks utamanya hanya sekitar 10 halaman pertama, jadi bisa dibaca cukup cepat
Contoh yang digunakan di sini memang tergolong sederhana bagi manusia, tetapi mudah membuat kita langsung melompat ke kesimpulan yang salah kalau tidak berpikir sejenak
Bagian yang benar-benar mengganggu adalah, jika melihat hakikat alat-alat yang ada sekarang, saya tidak tahu apakah ini realistis untuk diperbaiki. Mereka tidak bernalar atau berpikir dalam arti apa pun, tetapi sudah diterima oleh banyak orang sebagai AI serbaguna
Kemampuan mereka untuk tampak seolah-olah bernalar secara meyakinkan dalam berbagai situasi juga ikut memanaskan hype. Saya tidak tahu apakah makalah ini akan benar-benar berdampak pada peluncuran dan klaim berlebihan AI, atau akan terkubur sampai risikonya kembali terlihat seperti saat peluncuran Google Search
- Penalaran yang cukup kompleks membutuhkan monolog internal dan iterasi. Dalam pemikiran tipe 2, kita membuat dan mengevaluasi kemungkinan solusi, argumen, dan jalur penalaran di dalam kepala, lalu memilih yang dianggap sesuai atau benar
  Dengan prompt, proses berpikir internal itu bisa ditarik keluar dan sebagian ditiru, tetapi sebenarnya proses tersebut harus bersifat internal dan otomatis
  Alasan kita belum tahu caranya adalah karena pengendalian proses berpikir internal tidak selalu berbasis bahasa, dan proses berpikir internal otak biologis tidak bisa diamati langsung sehingga tidak bisa digunakan sebagai data pelatihan
  LLM saat ini punya kemiripan dengan behaviorisme, dan tampaknya yang benar-benar dibutuhkan adalah sesuatu yang bisa menerapkan psikologi kognitif: https://en.wikipedia.org/wiki/Behaviorism
- Mungkin ada solusi yang cukup sederhana. Caranya adalah meminta model merekonstruksi masalah dalam bahasa logika seperti Prolog, lalu alih-alih belajar penalaran berantai yang sederhana, menjalankan program itu untuk menghasilkan jawaban
  Manusia pun tidak tiba-tiba membuat model logika; kita melewati pendidikan dasar selama bertahun-tahun untuk belajar memahami dunia dan memecahkan masalah
  Pendekatan pemrograman logika terlihat menjanjikan, tetapi agar berfungsi dengan baik, LLM harus diberi jumlah contoh yang sangat besar, dan belum jelas apakah data pelatihan seperti itu saat ini sudah cukup
- Bagi orang yang memakai sistem ini dengan pemahaman kritis, ini umumnya hal yang terlalu jelas. Menyedihkan bahwa sampai perlu PDF di arxiv.org untuk mengatakan bahwa kaisar itu telanjang
  Sebagian besar pengguna LLM, kalau mau, bisa memverifikasi sendiri hal ini sekarang juga
  Namun kekuatan propaganda teknologi perusahaan begitu besar sehingga banyak orang justru akan bersikeras bahwa manusia pun sejak awal tidak pernah memakai pakaian
- Kalau dipikirkan serius apa itu LLM, menurut saya itu tidak mungkin berujung pada AI serbaguna. Pada saat yang sama, ia memang sudah melakukan jauh lebih banyak hal daripada yang kita perkirakan
  Orang-orang terkejut dengan apa yang berhasil dilakukan OpenAI, sehingga mungkin sekarang mereka berdoa agar AGI muncul begitu saja asalkan ada komputasi yang cukup dan model yang tepat
- Masalahnya adalah seberapa sering manusia salah menjawab pertanyaan ini tanpa prompt. Jika median IQ adalah 100 dan mencakup orang tanpa pelatihan logika atau dengan tingkat pendidikan beragam, tingkat jawaban benar manusia tampaknya tidak akan mendekati 1,0 seperti yang diisyaratkan para penulis
  Bahwa LLM sama sekali tidak bernalar sudah cukup jelas, jadi fakta bahwa LLM tidak bisa bernalar bukanlah hal yang mengejutkan
  Justru, mengingat fakta bahwa ia tidak punya kemampuan bernalar, performanya pada tugas penalaran sejauh ini cukup mengejutkan; dan jika digabung dengan kemampuan bahasa alami serta kemampuan yang mirip penalaran abduktif, yang umumnya sulit dalam model komputasi, sulit menarik banyak kesimpulan selain bahwa “GPT-4o itu hebat”
Pertanyaannya adalah: “Alice memiliki 60 saudara laki-laki dan 212 saudara perempuan. Berapa banyak saudara perempuan yang dimiliki saudara laki-laki Alice?” Dalam makalah, angka-angka itu dinyatakan sebagai X dan N, bukan angka konkret.
Terus terang, saat mencoba menyelesaikannya sendiri saya salah, dan baru memastikan jawaban yang benar setelah memasukkannya ke GPT-4o: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
Di prompt eksperimen ada batasan “jangan keluarkan teks apa pun selain format jawaban yang benar”, jadi tampaknya model dibuat tidak bisa berpikir keras. Jika frasa itu ditambahkan, GPT-4o terus salah: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
Pada contoh yang lebih rumit, GPT-4o tampaknya runtuh, tetapi sejujurnya sulit mengatakan bahwa soal itu benar-benar sesederhana itu atau bahwa kebanyakan orang akan menjawabnya benar.
- Dalam makalah, semua angkanya kurang dari 10.
  AIW Variation 1 adalah N=3, M=6, C=7; Variation 2 adalah N=4, M=2, C=3; Variation 3 adalah N=1, M=4, C=5; dan Variation 4 adalah N=4, M=1, C=2.
  Prompt dengan batasan itu hanyalah salah satu dari beberapa variasi prompt yang diuji dalam makalah. Makalah tersebut juga menguji teknik-teknik umum untuk meningkatkan performa LLM, termasuk “berpikir keras”, tetapi bahkan dengan metode seperti itu model tetap tidak menghasilkan jawaban yang benar.
- Batasan seperti itulah yang sering dilakukan orang-orang yang menganggap LLM bodoh.
  Semakin banyak LLM berbicara, semakin pintar ia jadinya, karena mengeluarkan output adalah satu-satunya cara ia menghitung.
  Ini mirip dengan mengatakan bahwa mesin Turing tidak memenuhi tesis Church-Turing karena tidak bisa menyelesaikan 3-SAT dengan N variabel dalam N langkah atau kurang. Saat meminta LLM agar ringkas, pada dasarnya kita menyuruhnya melakukan hal semacam itu.
- Sepertinya fenomena baru ini perlu diberi nama. Fenomena ketika seseorang mengatakan LLM tidak bisa mengerjakan tugas sepele, lalu orang lain menyatakan bahwa dirinya juga tidak bisa mengerjakan tugas itu demi membela legitimasi LLM.
  Sulit dipercaya bahwa orang rata-rata yang cukup termotivasi sampai membuka kotak input ChatGPT tidak akan bisa menjawab pertanyaan ini dengan benar.
- Saya pernah melihat sistem seperti ini gagal besar dan memberikan jawaban yang sangat salah bahkan ketika diminta “berpikir keras”.
  Selain itu, jika ada format respons yang diharapkan, tidak selalu mungkin untuk berpikir keras. Dalam praktiknya, ini terlihat lebih seperti bukti bahwa yang terjadi di sini bukan penalaran sungguhan, melainkan lebih mendekati rujukan diri.
  Saat saya sendiri mencoba prompt yang sama dengan memintanya berpikir keras, jawabannya adalah Alice memiliki 212 saudara perempuan.
- Ini kondisi yang penting, jadi aneh bahwa makalah tidak menyorotinya dengan jelas. Dalam pengujian saya, ChatGPT 4o menyelesaikannya setiap kali.
  Bahkan dengan prompt yang “tangannya diikat”, tampaknya ia bekerja cukup baik. Saya penasaran apakah makalahnya tidak akurat, atau OpenAI telah menyesuaikan modelnya, tetapi kemungkinan yang terakhir tampak kecil.
  Namun menurut laporan, 4o menjawab teka-teki ini dengan benar 60% dari waktu. Saya sejauh ini baru mengujinya sekitar 12 kali dan semuanya benar, jadi perlu mencoba lebih banyak lagi.
Sebagian besar dataset “benchmark” yang mengevaluasi LLM publik utama jelas termasuk dalam data pelatihan, sehingga hampir tidak berguna untuk memeriksa keandalan model.
Cukup jelas juga bahwa sebagian peningkatan skor pada model generasi berikutnya terjadi karena data benchmark tersebut lebih banyak masuk ke data pelatihan.
Untuk mengevaluasi LLM dengan lebih baik, kita perlu memakai tes yang baru dibuat agar tidak ada dalam data pelatihan sebelumnya, lalu menunggu beberapa minggu sebelum menggunakannya.
Seperti yang terlihat pada ujian hukum dan berbagai ujian lain, performa merosot tajam ketika memakai data out-of-sample masa depan yang sesungguhnya. Ini berbeda dari benchmark out-of-sample palsu yang ada sekarang.
- MMLU bukan benchmark penalaran. Ia lebih mendekati metrik untuk mengukur seberapa luas dan representatif data pelatihan, serta seberapa baik model mengingat berdasarkan epoch pelatihan.
  GPQA dan semacamnya menguji penalaran dalam bentuk tertentu, dan pada semua model kita bisa melihat selisih besar antara kedua skor itu.
- Setiap kali melihat MMLU dipakai sebagai benchmark, saya bertanya-tanya apa yang ingin dibuktikan. MMLU adalah ujian pilihan ganda sederhana yang jawabannya sudah dipublikasikan.
  Menebak acak saja menghasilkan 25 poin, dan jika mengetahui 50% jawaban lalu menebak sisanya, hasilnya 62,5%, cukup dekat dengan skor LLM terbaru.
  Benchmark yang diklaim menunjukkan penalaran pun cukup buruk dan tidak terlalu berkaitan dengan penalaran. Banyak soal bisa dijawab dengan hafalan.
  Saya setuju bahwa benchmark-nya berantakan. Saya pernah terpikir membuatnya sendiri, tetapi terlebih dahulu harus membuat framework benchmarking yang kompleks, dan sulit meluangkan waktu untuk pekerjaan persiapan itu.
Gagasan bahwa soal cerita seperti ini dan masalah yang membuat LLM buntu “mudah diselesaikan manusia” membutuhkan data empiris.
Orang-orang di bidang komputer menyukai teka-teki, dan soal seperti ini tampak intuitif bagi mereka.
Dengan batasan waktu yang sama seperti yang diberikan kepada LLM, persentase masyarakat umum yang menjawab teka-teki ini dengan benar mungkin jauh lebih rendah daripada perkiraan para penulis, dan dalam hal ini LLM bisa berada pada garis yang mirip dengan penalaran tingkat manusia.
Tentu saja saya juga tidak punya bahan untuk dikutip, tetapi bukan saya yang menulis makalahnya.
- Sebagai orang dengan latar belakang pendidikan, saya rasa GPT-4 akan cukup dekat dengan performa masyarakat umum pada soal ini. Banyak orang akan melewatkan AIW, dan hampir semua orang tampaknya akan melewatkan AIW+.
  Saya cukup mahir mengerjakan soal jenis ini, tetapi AIW+ pun membutuhkan sekitar 1 menit dengan kertas dan pensil. Levelnya mirip soal tersulit pada ujian seperti GRE.
  Saya bertanya-tanya apakah model yang dilatih dengan data seluruh internet menangkap, dengan cara yang samar, pendekatan kognitif orang rata-rata. Jika orang rata-rata tidak berpikir dengan cara manipulasi simbolis seperti ini dan juga tidak menulis dengan cara seperti itu, model yang dilatih dari tulisan tersebut mungkin juga demikian.
Gemini menjawab benar tanpa prompt tambahan untuk pertanyaan: “Alice punya N saudara laki-laki dan M saudara perempuan. Berapa saudara perempuan yang dimiliki saudara laki-laki Alice?”: https://g.co/gemini/share/6946d20c0a4d
Saat angka dimasukkan, Gemini menjadi bingung: “Alice punya 4 saudara laki-laki dan 3 saudara perempuan. Berapa saudara perempuan yang dimiliki saudara laki-laki Alice?” https://g.co/gemini/share/14d34dcdc5df
Namun ketika diberi tahu bahwa itu bisa jadi pertanyaan jebakan, ia kembali menjawab benar: https://g.co/gemini/share/e1f1ce8f32a8
Saya tidak mencoba versi 60/212 saudara kandung. Jika Alice adalah makhluk seperti manusia, masuk akal untuk berasumsi ia tidak punya ratusan saudara kandung, jadi menurut saya pertanyaan itu tidak adil jika mengharapkan “jawaban benar” dari responden
- Saya lupa mencoba Gemini. Saya baru saja mencoba tes perahu saya yang sebelumnya gagal dijawab semua LLM, dan Gemini juga gagal: https://news.ycombinator.com/item?id=40455392
  Saya bertanya, “Ada seekor kambing dan sebuah perahu di tepi sungai. Bagaimana cara pergi ke seberang? Pikirkan baik-baik dan ingat bahwa ini bisa jadi pertanyaan jebakan,” dan Gemini menyelesaikannya seolah-olah itu variasi masalah petani, serigala, kambing, dan kubis, lalu membuat prosedur yang tidak perlu untuk memindahkan kambing
  Jawaban yang diharapkan cukup seperti “naik perahu dan menyeberangi sungai”. “Menyeberang dengan perahu dan kambing” masih bisa diterima, tetapi pertanyaannya tidak meminta agar kambing diseberangkan, jadi secara ketat itu salah
- Justru reaksi bahwa seseorang tidak mungkin punya ratusan saudara kandung adalah masalah bagi klaim bahwa manusia memiliki “kecerdasan umum”. Ketika menemui situasi di luar distribusi, manusia menjadi bingung
  Kecerdasan umum yang sejati seharusnya menerapkan pengetahuan bahwa biaya kehamilan ibu pengganti sekitar 50 ribu dolar dan konteks historis IVF, lalu mengasumsikan sepasang miliarder memutuskan punya ratusan anak, kemudian melanjutkan perhitungannya
  Pencarian makhluk cerdas terus berlanjut
- GPT-4o menjawab benar untuk teka-teki abstraknya. Saat saya mencobanya, Gemini salah
Ini makalah yang menarik, tetapi saya khawatir ini mungkin cherry-picking atas hasil negatif yang mengejutkan. Makalah itu tampaknya tidak membahas berapa banyak evaluasi yang mereka periksa sampai menemukan contoh ini
Secara umum, sebagian pola kegagalan AI bisa muncul pada hal-hal yang tampak jelas bagi manusia. Itu karena arsitekturnya berbeda dari manusia dan kekuatannya juga berbeda
Pertanyaan pentingnya adalah apakah ini satu bug kognitif aneh yang hanya muncul dalam formulasi keluarga, atau apakah ini mewakili kategori kesalahan kognitif yang luas. Dari makalah ini saja sulit untuk mengatakannya
Sudah diketahui bahwa framing soal logika dapat sangat mengubah tingkat kesulitan bagi manusia, meskipun struktur perbandingan dasarnya isomorfik
Arah riset seperti ini penting, tetapi dibutuhkan kumpulan evaluasi yang lebih besar, dan masalah data evaluasi masuk ke data pelatihan akan selalu tetap menjadi faktor pengganggu
Kategori penalaran yang lebih luas di sini, seperti dikatakan makalah tersebut, adalah penalaran relasional, jadi menarik jika studi lanjutan melihat performa penalaran di seluruh rangkaian soal isomorfik. LLM belum kuat dalam penalaran relasional, jadi saya kira ini akan tergeneralisasi sampai batas tertentu, tetapi tampaknya formulasi hubungan keluarga khususnya juga punya sesuatu yang membuat LLM bingung
- Menurut saya pelatihan untuk mengurangi bias gender adalah hal yang baik, tetapi saya juga berpikir formulasi seperti ini yang memuat “sister” dan “brother” mungkin dapat menimbulkan gangguan kognitif
  Sebab pertanyaan seperti itu bisa terhubung dengan data pelatihan yang jawaban benarnya adalah menolak generalisasi. Ini murni spekulasi
Saat saya bertanya langsung ke GPT-4o, hasilnya lebih menarik dari perkiraan
Prompt-nya adalah “Alice punya 3 saudara laki-laki dan 6 saudara perempuan. Berapa saudara perempuan yang dimiliki saudara laki-laki Alice? Selesaikan langkah demi langkah”
Jawabannya dengan benar mengatakan total saudara perempuan ada 7 jika Alice sendiri ikut dihitung, tetapi pada akhirnya menyimpulkan “setiap saudara laki-laki tidak menghitung dirinya sendiri sebagai saudara perempuan, jadi saudara perempuannya 6”
Ini tampak seperti kegagalan penalaran langkah demi langkah klasik, ketika perhitungan di tengah dan kesimpulan saling bertentangan
Masalah AIW+ memiliki informasi yang tidak diketahui jika diselesaikan persis seperti tertulis
Setelah para penulis membuat ratusan soal hubungan keluarga, jawabannya mungkin tampak jelas bagi mereka, tetapi jika hanya melihat kalimatnya, tidak jelas apakah Alice punya saudara laki-laki, apakah ayahnya punya saudara perempuan, apakah keponakan dari bibi/paman mencakup relasi karena pernikahan, dan sebagainya
LLM mungkin tetap gagal meskipun jawaban seperti itu dibuat eksplisit, tetapi sepertinya soal yang sama juga bisa diakhiri dengan “bagaimana mungkin jika Alice hanya punya 4 sepupu?”
Ada presentasi bagus tentang masalah ini: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
Intinya adalah LLM sangat buruk dalam perencanaan dan penalaran. Kita bisa memberi aturan tugas perencanaan dan meminta hasilnya, tetapi bahkan ketika logikanya benar, akurasinya sangat bergantung bukan hanya pada aturan abstrak, melainkan juga pada informasi semantik tambahan
Dalam presentasi itu, mereka menunjukkannya dengan memetakan kata benda dalam aturan tugas dan deskripsi input ke domain yang sama sekali berbeda, dan performanya runtuh hanya dengan substitusi sederhana
LLM saat ini sebagian besar adalah pencocok pola dengan kemampuan generalisasi terbatas
- Manusia juga runtuh dalam hal seperti penalaran statistik ketika domainnya diganti. Saya ingat riset psikologi evolusioner Leda Cosmides membahas hal semacam itu, meski mungkin ada eksperimen yang lebih terkenal
Makalah yang lucu, tetapi agak aneh jika para penulis berbicara seolah-olah mereka menemukan templat soal “Alice punya N saudara laki-laki dan M saudara perempuan…”
Ini adalah variasi yang sangat dasar dari teka-teki umum yang sering ditanyakan kepada LLM: https://news.ycombinator.com/item?id=39786666#39794890
Saya juga menyebutkan teka-teki itu 74 hari lalu, dan saat itu pun saya sudah mengetahuinya sejak cukup lama

Tugas Sederhana yang Menunjukkan Runtuhnya Penalaran pada LLM Terbaru

Kegagalan penalaran sederhana yang terungkap lewat masalah AIW

Akurasi yang sangat goyah tergantung variasi

Penyebab sederhana yang dieliminasi lewat masalah kontrol

Prompt dan prosedur evaluasi

Rasa terlalu yakin pada jawaban salah dan evaluasi ulang benchmark

Bacaan terkait

1 komentar

Komentar Hacker News