3 poin oleh GN⁺ 2024-06-06 | 1 komentar | Bagikan ke WhatsApp

Alice in Wonderland: tugas sederhana yang menunjukkan keruntuhan penalaran total pada model bahasa besar terbaru

Ringkasan poin utama

  • Model bahasa besar (LLM): model yang menunjukkan kinerja kuat di berbagai tugas dan kondisi, serta mengikuti hukum penskalaan bahwa kinerjanya meningkat ketika skala pra-pelatihan diperbesar.
  • Masalah: model bahasa besar terbaru menunjukkan keruntuhan serius pada fungsi dan kemampuan penalaran dalam soal akal sehat yang sederhana. Bahkan pada masalah yang mudah diselesaikan manusia, model dengan percaya diri memberikan jawaban yang salah, lalu membenarkannya dengan penjelasan yang tidak logis.
  • Intervensi yang gagal: berbagai upaya untuk mengarahkan model agar menemukan jawaban yang benar melalui penguatan prompt atau evaluasi ulang bertahap ternyata gagal.
  • Perlu evaluasi ulang: perlu menilai ulang kemampuan yang diklaim dari generasi model bahasa besar saat ini, serta membuat benchmark terstandarisasi yang dapat mendeteksi cacat penalaran mendasar semacam ini dengan tepat.

Opini GN⁺

  • Keterbatasan teknis: ini menunjukkan bahwa model bahasa besar masih memiliki keterbatasan dalam situasi tertentu. Hal ini menyiratkan perlunya riset dan perbaikan lanjutan untuk meningkatkan keandalan model.
  • Benchmark terstandarisasi: diperlukan benchmark terstandarisasi baru untuk mengevaluasi kinerja model secara akurat. Ini dapat membantu para peneliti memahami kelemahan model dengan lebih baik dan memperbaikinya.
  • Aplikasi nyata: cacat semacam ini berarti penggunaan model bahasa besar dalam aplikasi nyata memerlukan kehati-hatian. Khususnya jika digunakan untuk pengambilan keputusan penting, masalah keandalan dapat muncul.
  • Teknologi alternatif: perlu mempertimbangkan teknologi atau model AI lain. Misalnya, reinforcement learning atau model hibrida dapat menjadi alternatif.
  • Arah riset masa depan: riset ini menunjukkan arah baru untuk mengatasi keterbatasan model bahasa besar. Misalnya, diperlukan pengembangan model yang dapat meniru akal sehat dan kemampuan penalaran manusia dengan lebih baik.

1 komentar

 
GN⁺ 2024-06-06
Komentar Hacker News
  • Bagi yang ingin membaca makalahnya, bagian utamanya bisa dibaca cepat dalam 10 halaman pertama.
  • Contoh yang dibahas dalam makalah cukup mudah dipahami, tetapi masih diragukan apakah alat-alat itu benar-benar bisa menyelesaikan masalah.
  • Alat AI sebenarnya tidak benar-benar berpikir atau bernalar, tetapi banyak orang cenderung menganggapnya sebagai AI serbaguna.
  • Tampaknya kecil kemungkinan makalah ini akan memengaruhi hype berlebihan seputar AI.
  • Untuk pertanyaan "Alice memiliki 60 saudara laki-laki dan 212 saudara perempuan. Berapa banyak saudara perempuan yang dimiliki saudara laki-laki Alice?", GPT-4 memberikan jawaban yang benar.
  • Dalam eksperimen, ketika model diarahkan agar tidak mengeluarkan 'suara berpikir', GPT-4 secara konsisten memberikan jawaban yang salah.
  • Pada contoh yang lebih kompleks, GPT-4 cenderung gagal.
  • Model Gemini menyelesaikan masalah tanpa arahan tambahan, tetapi menjadi bingung ketika diberi angka.
  • Dengan asumsi Alice tidak mungkin memiliki ratusan saudara kandung, saya menganggap pertanyaannya tidak masuk akal.
  • Dataset evaluasi untuk LLM utama sudah termasuk dalam data pelatihan, sehingga tidak berguna untuk menilai keandalannya.
  • Membuat tes baru untuk mengevaluasi LLM adalah cara yang lebih baik.
  • Kecil kemungkinan masyarakat umum dapat menyelesaikan teka-teki semacam ini dalam waktu terbatas.
  • Masalah AIW+ lebih sulit diselesaikan daripada masalah AIW biasa.
  • Karena penulis makalah membuat ratusan masalah pohon keluarga, jawabannya mungkin terlihat jelas.
  • Masalah yang diajukan dalam makalah hanyalah variasi dari teka-teki yang sangat dasar.
  • Tampaknya makalah ini secara selektif membahas hasil negatif yang mengejutkan.
  • LLM masih lemah dalam penalaran relasional.
  • LLM kurang memiliki kemampuan untuk mempertahankan konsentrasi dalam waktu lama.
  • Gagasan bahwa LLM dapat mewujudkan AGI tidak lebih dari sekadar angan-angan.
  • Ada presentasi yang bagus yang menunjukkan bahwa LLM sangat lemah dalam perencanaan dan penalaran.