5 poin oleh GN⁺ 2024-10-06 | 4 komentar | Bagikan ke WhatsApp
  • Ada banyak perdebatan tentang sejauh mana model bahasa besar (LLM) memiliki Theory of Mind, yaitu kemampuan memahami apa yang diketahui dan tidak diketahui orang lain
  • Notebook ini mengeksplorasi satu bagian dari masalah tersebut dengan meminta 9 chatbot LLM memecahkan masalah ulang tahun Cheryl (teka-teki logika terkenal di mana para tokohnya memiliki status pengetahuan yang berbeda pada waktu yang berbeda)

Ringkasan kinerja LLM

  • Semua LLM sudah familier dengan masalah ini, jadi tidak perlu menjelaskannya di prompt; cukup menyebut namanya
  • Sebagian besar dapat mengingat dengan tepat jawaban masalah tersebut, yaitu 16 Juli
  • Namun, tidak satu pun yang dapat menulis program untuk mencari solusinya
  • Semua LLM gagal membedakan status pengetahuan para tokoh yang berbeda seiring waktu
  • Setidaknya untuk masalah ini, LLM tidak memiliki Theory of Mind (mungkin karena hampir tidak ada program Python dalam data latih LLM yang menangani Theory of Mind)

Ringkasan respons per LLM

Manusia nyata

  • Dapat menyelesaikan masalah asli dengan tepat dan menulis program yang juga bisa menangani himpunan tanggal baru serta variasi lain dari masalah tersebut
  • Memperkenalkan konsep BeliefState, yaitu himpunan tanggal yang mungkin menurut seseorang bisa menjadi tanggal ulang tahun
  • Memodelkan pernyataan tokoh sebagai fungsi yang menerima tanggal tertentu sebagai input dan mengembalikan true jika sesuai dengan pernyataan tersebut

ChatGPT 4o

  • Memulai dengan ringkasan masalah yang sangat baik
  • Mencoba menulis solusi yang digeneralisasi, tetapi gagal melacak status keyakinan para tokoh yang berbeda dari waktu ke waktu

Microsoft Copilot

  • Membuat kesalahan yang mirip dengan ChatGPT

Gemini Advanced

  • Bagus karena mendefinisikan beberapa fungsi, tetapi tetap gagal menangani perubahan status dari waktu ke waktu dengan benar

Meta Llama 405B

  • Gagal menemukan solusi

Claude 3.5 Sonnet

  • Bagus karena secara eksplisit mencoba contoh dengan tanggal yang berbeda, tetapi untuk contoh kedua hanya kebetulan melaporkan dengan benar bahwa tidak ada solusi

Perplexity

  • Tampak menjanjikan karena memiliki variabel terpisah albert_knows dan bernard_knows, tetapi tetap tidak menanganinya dengan benar
  • Menerima tanggal yang mungkin sebagai parameter, tetapi mengabaikan input dan mendefinisikan month_days berdasarkan tanggal asli

HuggingFace Chat

  • Satu-satunya model yang mengusulkan definisi kelas, tetapi tetap melakukan kesalahan serupa
  • Menerima daftar tanggal yang mungkin di konstruktor, tetapi melakukan hardcode bulan dan hari spesifik dari masalah asli

You.com

  • Melakukan kesalahan yang mirip dengan model lain, tetapi pada akhirnya memilih tanggal yang salah, alih-alih tidak memilih tanggal sama sekali

Opini GN+

  • Masalah ini adalah cara yang menarik untuk mengevaluasi kemampuan Theory of Mind pada LLM
  • Semua LLM mengingat jawaban yang benar, tetapi tidak satu pun yang dapat membuat program untuk melacak perubahan status pengetahuan para tokoh dari waktu ke waktu
  • Ini bisa jadi karena sampel kode yang digunakan untuk melatih LLM tidak mencakup jenis penalaran seperti ini
  • Untuk meningkatkan performa LLM pada masalah penalaran jenis ini, mungkin akan membantu jika mereka dilatih dengan program yang secara eksplisit menangani skenario semacam ini
  • Kita perlu menguji lebih banyak masalah serupa untuk memperluas pemahaman kita tentang kemampuan Theory of Mind pada LLM

4 komentar

 
comsect62 2024-10-08

Karena ini adalah industri futuristik paling mutakhir, rasanya seperti membangun sesuatu yang belum diketahui di atas lahan kosong. Pada saat seperti ini, imajinasi logis juga diperlukan. Pikirkan pendiri Apple.

 
moderator 2024-10-08

Dikecualikan karena ada kata iklan.

 
xguru 2024-10-07

Ulang tahun Cheryl menjadi terkenal setelah muncul sebagai soal Olimpiade Matematika Singapura 2015, sampai punya halaman Wiki juga.
(Kabarnya sebenarnya ada versi awal yang terbit pada 2006 juga.)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

Soalnya sebagai berikut.

Albert dan Bernard berteman dengan Cheryl, lalu bertanya kapan ulang tahunnya.
Cheryl memberi tahu mereka 10 tanggal.

  • 15 Mei, 16 Mei, 19 Mei
  • 17 Juni, 18 Juni
  • 14 Juli, 16 Juli
  • 14 Agustus, 15 Agustus, 17 Agustus

Cheryl memberi tahu Albert "bulan" ulang tahunnya, dan memberi tahu Bernard "tanggal" ulang tahunnya.

Albert: Aku tidak tahu kapan ulang tahun Cheryl, tapi aku tahu Bernard juga tidak mungkin tahu.
Bernard: Awalnya aku juga tidak tahu kapan ulang tahun Cheryl. Tapi sekarang aku tahu.
Albert: Kalau begitu, sekarang aku juga tahu kapan ulang tahun Cheryl.

Kapan ulang tahun Cheryl?

 
GN⁺ 2024-10-06
Opini Hacker News
  • Sudah lama membuat versi bernama "Cheryl's Murder". Notebook dapat menyelesaikan dan menghasilkan masalah induksi logis seperti "Cheryl's Birthday"
  • Gp1-o1 menyelesaikan teka-teki ini dengan benar dalam 13 detik, dengan penalaran logis dan penjelasan yang menyeluruh. Menurut saya tidak adil meminta definisi teka-teki diambil dari data pelatihan
  • o1 mini menyelesaikan teka-teki pada percobaan pertama, dan bekerja pada contoh yang diberikan di notebook
    • Fungsi find_cheryls_birthday menganalisis tanggal-tanggal yang mungkin untuk menemukan ulang tahun Cheryl
  • Masalah dalam evaluasi LLM adalah unsur acak dan pemilihan frasa tertentu pada prompt sangat penting. Saya meminta Claude menjelaskan masalahnya dan menulis kode Python; sempat terjadi exception, tetapi setelah diperbaiki didapat jawaban yang benar
  • Karena contoh Python mudah diakses dalam data pelatihan, saya merasa test case ini tidak tepat. Menarik bahwa model gagal menyelesaikannya
  • LLM dan NLP berperan seperti kalkulator untuk penalaran bahasa. Bahasa alami memiliki ambiguitas dan keluwesan makna. Meminta model menyelesaikan soal matematika dalam bentuk kalimat adalah pemborosan waktu
  • Ekspektasi terhadap kemajuan AI terus berubah. LLM lebih cerdas daripada manusia rata-rata, dan dapat melampaui manusia dalam pekerjaan kognitif yang nyata
  • Menarik kesimpulan dari ketidakmampuan LLM menjawab pertanyaan tertentu bisa gagal karena prinsip "akan mungkin pada iterasi berikutnya"
  • Masalah ini hanyalah soal logika, bukan uji "theory of mind" yang sesungguhnya. Ada kemungkinan LLM memiliki kemampuan untuk memodelkan perilaku manusia
  • Claude 3.5 Sonnet menyelesaikan masalah ini pada percobaan pertama, dengan menulis program Python yang menghasilkan himpunan tanggal yang valid. Tidak mengalami kesulitan dalam menyelesaikan masalah ini