GSM-Symbolic: Memahami Batas Penalaran Matematis pada Model Bahasa Besar
- Perkembangan terbaru model bahasa besar (LLM) telah memicu minat terhadap kemampuan penalaran formal di bidang matematika.
- Benchmark GSM8K digunakan secara luas untuk mengevaluasi penalaran matematis model terhadap pertanyaan tingkat sekolah dasar.
- Kinerja LLM pada GSM8K telah meningkat pesat dalam beberapa tahun terakhir, tetapi belum jelas apakah kemampuan penalaran matematisnya benar-benar berkembang.
- Untuk menjawab masalah ini, dilakukan studi berskala besar terhadap berbagai model terbuka dan tertutup terbaru.
- Untuk mengatasi keterbatasan evaluasi yang ada, diperkenalkan GSM-Symbolic, benchmark yang ditingkatkan dan terdiri dari template simbolik yang memungkinkan pembuatan pertanyaan yang beragam.
- GSM-Symbolic memungkinkan evaluasi yang lebih terkontrol, sehingga memberikan tolok ukur yang lebih andal untuk mengukur kemampuan penalaran.
- Hasil penelitian menunjukkan bahwa LLM memperlihatkan variabilitas yang mencolok saat menjawab implementasi berbeda dari pertanyaan yang sama.
- Secara khusus, pada benchmark GSM-Symbolic, hanya dengan mengubah nilai numerik dalam pertanyaan saja sudah menurunkan kinerja semua model.
- Selain itu, penelitian ini meneliti kelemahan penalaran matematis model-model tersebut dan menunjukkan bahwa kinerja menurun drastis seiring bertambahnya jumlah klausa dalam pertanyaan.
- Hal ini diasumsikan terjadi karena LLM saat ini belum mampu melakukan penalaran logis yang sesungguhnya, dan hanya mereplikasi langkah-langkah penalaran dari data pelatihan.
- Jika satu klausa yang tampak relevan ditambahkan ke dalam pertanyaan, semua model terbaru mengalami penurunan kinerja hingga 65%, meskipun klausa tersebut tidak berkontribusi pada rantai penalaran yang dibutuhkan untuk jawaban akhir.
Ringkasan GN⁺
- Studi ini membantu memberikan pemahaman yang lebih rinci tentang kemampuan dan batas penalaran matematis pada model bahasa besar.
- Benchmark GSM-Symbolic menyediakan alat untuk mengevaluasi kemampuan penalaran model dengan lebih akurat melalui beragam pertanyaan.
- Studi ini menunjukkan bahwa LLM cenderung mereplikasi langkah penalaran dari data pelatihan alih-alih melakukan penalaran logis yang sebenarnya.
- Benchmark lain yang direkomendasikan untuk mengevaluasi kemampuan penalaran matematis mencakup MATH dan MATHQA.
1 komentar
Opini Hacker News