LLM, Theory of Mind, dan Ulang Tahun Cheryl

Ada banyak perdebatan tentang sejauh mana model bahasa besar (LLM) memiliki Theory of Mind, yaitu kemampuan memahami apa yang diketahui dan tidak diketahui orang lain
Notebook ini mengeksplorasi satu bagian dari masalah tersebut dengan meminta 9 chatbot LLM memecahkan masalah ulang tahun Cheryl (teka-teki logika terkenal di mana para tokohnya memiliki status pengetahuan yang berbeda pada waktu yang berbeda)

Ringkasan kinerja LLM

Semua LLM sudah familier dengan masalah ini, jadi tidak perlu menjelaskannya di prompt; cukup menyebut namanya
Sebagian besar dapat mengingat dengan tepat jawaban masalah tersebut, yaitu 16 Juli
Namun, tidak satu pun yang dapat menulis program untuk mencari solusinya
Semua LLM gagal membedakan status pengetahuan para tokoh yang berbeda seiring waktu
Setidaknya untuk masalah ini, LLM tidak memiliki Theory of Mind (mungkin karena hampir tidak ada program Python dalam data latih LLM yang menangani Theory of Mind)

Ringkasan respons per LLM

Manusia nyata

Dapat menyelesaikan masalah asli dengan tepat dan menulis program yang juga bisa menangani himpunan tanggal baru serta variasi lain dari masalah tersebut
Memperkenalkan konsep BeliefState, yaitu himpunan tanggal yang mungkin menurut seseorang bisa menjadi tanggal ulang tahun
Memodelkan pernyataan tokoh sebagai fungsi yang menerima tanggal tertentu sebagai input dan mengembalikan true jika sesuai dengan pernyataan tersebut

ChatGPT 4o

Memulai dengan ringkasan masalah yang sangat baik
Mencoba menulis solusi yang digeneralisasi, tetapi gagal melacak status keyakinan para tokoh yang berbeda dari waktu ke waktu

Microsoft Copilot

Membuat kesalahan yang mirip dengan ChatGPT

Gemini Advanced

Bagus karena mendefinisikan beberapa fungsi, tetapi tetap gagal menangani perubahan status dari waktu ke waktu dengan benar

Meta Llama 405B

Gagal menemukan solusi

Claude 3.5 Sonnet

Bagus karena secara eksplisit mencoba contoh dengan tanggal yang berbeda, tetapi untuk contoh kedua hanya kebetulan melaporkan dengan benar bahwa tidak ada solusi

Perplexity

Tampak menjanjikan karena memiliki variabel terpisah albert_knows dan bernard_knows, tetapi tetap tidak menanganinya dengan benar
Menerima tanggal yang mungkin sebagai parameter, tetapi mengabaikan input dan mendefinisikan month_days berdasarkan tanggal asli

HuggingFace Chat

Satu-satunya model yang mengusulkan definisi kelas, tetapi tetap melakukan kesalahan serupa
Menerima daftar tanggal yang mungkin di konstruktor, tetapi melakukan hardcode bulan dan hari spesifik dari masalah asli

You.com

Melakukan kesalahan yang mirip dengan model lain, tetapi pada akhirnya memilih tanggal yang salah, alih-alih tidak memilih tanggal sama sekali

Opini GN+

Masalah ini adalah cara yang menarik untuk mengevaluasi kemampuan Theory of Mind pada LLM
Semua LLM mengingat jawaban yang benar, tetapi tidak satu pun yang dapat membuat program untuk melacak perubahan status pengetahuan para tokoh dari waktu ke waktu
Ini bisa jadi karena sampel kode yang digunakan untuk melatih LLM tidak mencakup jenis penalaran seperti ini
Untuk meningkatkan performa LLM pada masalah penalaran jenis ini, mungkin akan membantu jika mereka dilatih dengan program yang secara eksplisit menangani skenario semacam ini
Kita perlu menguji lebih banyak masalah serupa untuk memperluas pemahaman kita tentang kemampuan Theory of Mind pada LLM

4 komentar

comsect62 2024-10-08

Karena ini adalah industri futuristik paling mutakhir, rasanya seperti membangun sesuatu yang belum diketahui di atas lahan kosong. Pada saat seperti ini, imajinasi logis juga diperlukan. Pikirkan pendiri Apple.

moderator 2024-10-08

Dikecualikan karena ada kata iklan.

xguru 2024-10-07

Ulang tahun Cheryl menjadi terkenal setelah muncul sebagai soal Olimpiade Matematika Singapura 2015, sampai punya halaman Wiki juga.
(Kabarnya sebenarnya ada versi awal yang terbit pada 2006 juga.)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

Soalnya sebagai berikut.

Albert dan Bernard berteman dengan Cheryl, lalu bertanya kapan ulang tahunnya.
Cheryl memberi tahu mereka 10 tanggal.

15 Mei, 16 Mei, 19 Mei
17 Juni, 18 Juni
14 Juli, 16 Juli
14 Agustus, 15 Agustus, 17 Agustus

Cheryl memberi tahu Albert "bulan" ulang tahunnya, dan memberi tahu Bernard "tanggal" ulang tahunnya.

Albert: Aku tidak tahu kapan ulang tahun Cheryl, tapi aku tahu Bernard juga tidak mungkin tahu.
Bernard: Awalnya aku juga tidak tahu kapan ulang tahun Cheryl. Tapi sekarang aku tahu.
Albert: Kalau begitu, sekarang aku juga tahu kapan ulang tahun Cheryl.

Kapan ulang tahun Cheryl?

GN⁺ 2024-10-06

Opini Hacker News

Sudah lama membuat versi bernama "Cheryl's Murder". Notebook dapat menyelesaikan dan menghasilkan masalah induksi logis seperti "Cheryl's Birthday"
Gp1-o1 menyelesaikan teka-teki ini dengan benar dalam 13 detik, dengan penalaran logis dan penjelasan yang menyeluruh. Menurut saya tidak adil meminta definisi teka-teki diambil dari data pelatihan
o1 mini menyelesaikan teka-teki pada percobaan pertama, dan bekerja pada contoh yang diberikan di notebook
- Fungsi find_cheryls_birthday menganalisis tanggal-tanggal yang mungkin untuk menemukan ulang tahun Cheryl
Masalah dalam evaluasi LLM adalah unsur acak dan pemilihan frasa tertentu pada prompt sangat penting. Saya meminta Claude menjelaskan masalahnya dan menulis kode Python; sempat terjadi exception, tetapi setelah diperbaiki didapat jawaban yang benar
Karena contoh Python mudah diakses dalam data pelatihan, saya merasa test case ini tidak tepat. Menarik bahwa model gagal menyelesaikannya
LLM dan NLP berperan seperti kalkulator untuk penalaran bahasa. Bahasa alami memiliki ambiguitas dan keluwesan makna. Meminta model menyelesaikan soal matematika dalam bentuk kalimat adalah pemborosan waktu
Ekspektasi terhadap kemajuan AI terus berubah. LLM lebih cerdas daripada manusia rata-rata, dan dapat melampaui manusia dalam pekerjaan kognitif yang nyata
Menarik kesimpulan dari ketidakmampuan LLM menjawab pertanyaan tertentu bisa gagal karena prinsip "akan mungkin pada iterasi berikutnya"
Masalah ini hanyalah soal logika, bukan uji "theory of mind" yang sesungguhnya. Ada kemungkinan LLM memiliki kemampuan untuk memodelkan perilaku manusia
Claude 3.5 Sonnet menyelesaikan masalah ini pada percobaan pertama, dengan menulis program Python yang menghasilkan himpunan tanggal yang valid. Tidak mengalami kesulitan dalam menyelesaikan masalah ini