2 poin oleh GN⁺ 2024-10-13 | 1 komentar | Bagikan ke WhatsApp

GSM-Symbolic: Memahami Batas Penalaran Matematis pada Model Bahasa Besar

  • Perkembangan terbaru model bahasa besar (LLM) telah memicu minat terhadap kemampuan penalaran formal di bidang matematika.
  • Benchmark GSM8K digunakan secara luas untuk mengevaluasi penalaran matematis model terhadap pertanyaan tingkat sekolah dasar.
  • Kinerja LLM pada GSM8K telah meningkat pesat dalam beberapa tahun terakhir, tetapi belum jelas apakah kemampuan penalaran matematisnya benar-benar berkembang.
  • Untuk menjawab masalah ini, dilakukan studi berskala besar terhadap berbagai model terbuka dan tertutup terbaru.
  • Untuk mengatasi keterbatasan evaluasi yang ada, diperkenalkan GSM-Symbolic, benchmark yang ditingkatkan dan terdiri dari template simbolik yang memungkinkan pembuatan pertanyaan yang beragam.
  • GSM-Symbolic memungkinkan evaluasi yang lebih terkontrol, sehingga memberikan tolok ukur yang lebih andal untuk mengukur kemampuan penalaran.
  • Hasil penelitian menunjukkan bahwa LLM memperlihatkan variabilitas yang mencolok saat menjawab implementasi berbeda dari pertanyaan yang sama.
  • Secara khusus, pada benchmark GSM-Symbolic, hanya dengan mengubah nilai numerik dalam pertanyaan saja sudah menurunkan kinerja semua model.
  • Selain itu, penelitian ini meneliti kelemahan penalaran matematis model-model tersebut dan menunjukkan bahwa kinerja menurun drastis seiring bertambahnya jumlah klausa dalam pertanyaan.
  • Hal ini diasumsikan terjadi karena LLM saat ini belum mampu melakukan penalaran logis yang sesungguhnya, dan hanya mereplikasi langkah-langkah penalaran dari data pelatihan.
  • Jika satu klausa yang tampak relevan ditambahkan ke dalam pertanyaan, semua model terbaru mengalami penurunan kinerja hingga 65%, meskipun klausa tersebut tidak berkontribusi pada rantai penalaran yang dibutuhkan untuk jawaban akhir.

Ringkasan GN⁺

  • Studi ini membantu memberikan pemahaman yang lebih rinci tentang kemampuan dan batas penalaran matematis pada model bahasa besar.
  • Benchmark GSM-Symbolic menyediakan alat untuk mengevaluasi kemampuan penalaran model dengan lebih akurat melalui beragam pertanyaan.
  • Studi ini menunjukkan bahwa LLM cenderung mereplikasi langkah penalaran dari data pelatihan alih-alih melakukan penalaran logis yang sebenarnya.
  • Benchmark lain yang direkomendasikan untuk mengevaluasi kemampuan penalaran matematis mencakup MATH dan MATHQA.

1 komentar

 
GN⁺ 2024-10-13
Opini Hacker News
  • Penurunan performa LLM mirip dengan kemampuan pemecahan masalah mahasiswa baru. Masalah sederhana dapat diselesaikan dengan baik, tetapi akurasi menurun pada masalah yang memerlukan penghubungan beberapa langkah. Ini berarti LLM dapat melakukan penalaran logis pada tingkat lulusan SMA
    • Misalnya, pada soal yang memuat informasi tidak perlu, performa LLM turun drastis. Ini juga mirip dengan manusia, yang dapat mengalami hal serupa saat membaca soal dengan informasi yang tidak relevan
  • Hasil penelitian tentang kelemahan penalaran matematis menunjukkan bahwa performa menurun seiring bertambahnya jumlah klausa dalam pertanyaan. Ini mungkin karena LLM tidak mampu melakukan penalaran logis yang sejati
    • Dalam proses tokenisasi, prediksi untuk soal aritmetika sederhana menjadi tidak bermakna. Ini menunjukkan perlunya penggunaan alat, tetapi berdampak negatif bagi penalaran logis yang sesungguhnya
  • Muncul hasil yang serupa dengan masalah "Alice in Wonderland". Ini bisa jadi merupakan masalah model yang berada di antara pencocokan pola dan penalaran
    • Ini menunjukkan bahwa hasil benchmark LLM terkait matematika dan penalaran tidak dapat sepenuhnya dipercaya. Huruf, angka, dan struktur kalimat dalam soal sangat memengaruhi hasil
  • Pada benchmark GSM-Symbolic, hanya dengan mengubah nilai angka, performa semua model menurun. Ini merupakan bukti overfitting, yang menunjukkan adanya batasan mendasar pada LLM dalam mempelajari penalaran matematis
  • Cara "berpikir" LLM berada pada tingkat yang mampu melewati sebagian besar kurikulum sekolah. Namun, jika ada guru yang membuat soal yang tidak bergantung pada pencocokan pola, LLM bisa mengalami kesulitan
  • Dalam teka-teki logika yang sudah dikenal luas, LLM gagal menyelesaikan masalah jika elemen tertentu diubah. Ini menunjukkan bahwa LLM tidak mampu melakukan penalaran formal
  • LLM tidak dapat melakukan penalaran formal, tetapi dapat menyelesaikan banyak masalah logika dengan menerapkan "langkah-langkah penalaran" dari data pelatihan. Ini adalah dikotomi yang menarik
  • Akan menarik jika ada penelitian yang dapat menunjukkan batas penalaran matematis pada manusia dan hewan. Mungkin ada ide yang tidak dapat dipahami manusia, dan hal ini menimbulkan pertanyaan apakah kita bisa membuat mesin yang mampu bernalar dengan cara yang tidak dapat dilakukan manusia