Kemungkinan penjelasan parsial untuk anomali LLM dalam catur
(dynomight.net)-
Belakangan ini ada misteri bahwa model bahasa besar (LLM) ternyata tidak terlalu pandai bermain catur. Namun,
gpt-3.5-turbo-instructmenjadi pengecualian karena bermain catur cukup baik di tingkat amatir. Model ini lebih tua dan juga lebih kecil dibanding model-model terbaru lainnya. -
Beberapa teori diajukan:
- Teori 1: model dasar yang cukup besar sebenarnya pandai bermain catur, tetapi hal itu tidak berlaku setelah penyesuaian instruksi menjadi model chat.
- Teori 2: ada kemungkinan
gpt-3.5-turbo-instructdilatih dengan lebih banyak data catur. - Teori 3: ada sesuatu yang istimewa pada arsitektur LLM tertentu.
- Teori 4: ada "persaingan" antartipe data, sehingga agar LLM bisa bermain catur dengan baik, data permainan catur harus banyak.
- Teori 5: tuduhan bahwa OpenAI berbuat curang.
- Teori 6: klaim bahwa LLM sebenarnya tidak bisa bermain catur.
-
Tuduhan bahwa OpenAI berbuat curang sulit dipercaya.
gpt-3.5-turbo-instructmemilih langkah dengan cara yang berbeda dari mesin catur, dan menurut standar pakar performanya juga tidak luar biasa. -
LLM memang bisa bermain catur.
gpt-3.5-turbo-instructhampir tidak pernah mengusulkan langkah ilegal, dan juga bermain dengan baik pada keadaan papan yang baru. -
gpt-3.5-turbo-instructadalah model "completion" yang menerima teks lalu menghasilkan teks baru.gpt-4o-minidangpt-4oadalah model "chat" yang menggunakan system prompt dan user prompt. -
Melalui berbagai eksperimen, dikonfirmasi bahwa penyesuaian prompt, penambahan contoh, dan fine-tuning dapat memengaruhi performa model.
-
Penambahan contoh memberi dampak besar pada performa, dan fine-tuning juga membantu. Namun, pemberian langkah legal justru menurunkan performa.
-
Jika
gpt-4odiarahkan agar bekerja seperti mode "completion", performanya meningkat. Ini menunjukkan bahwagpt-4-basemungkin pandai bermain catur. -
Kesimpulannya, besar kemungkinan model dasar OpenAI telah dilatih dengan lebih banyak data catur, dan model chat bisa memiliki performa yang lebih rendah dibanding model completion.
-
Menemukan prompt, contoh, dan fine-tuning yang optimal adalah pekerjaan yang sulit dan mahal.
1 komentar
Opini Hacker News
Penulis tidak menyediakan data tentang frekuensi langkah ilegal, sehingga sulit menarik kesimpulan yang bermakna
gpt-3.5-turbo-instruct hampir tidak pernah mengusulkan langkah ilegal bahkan di endgame
Salah satu cara menguji apakah model memahami catur adalah memintanya memilih langkah berikutnya dari 1000 posisi legal acak
Tidak semua orang salah
LLM terasa seperti sedang mencari mantra
Ada klaim bahwa pelatihan dengan sampel kode meningkatkan "penalaran"
Mungkin ada kasus khusus di mana gpt-3.5-turbo-instruct mengenali notasi catur dan memanggil engine catur eksternal
Hasilnya diukur meskipun tidak ada instruksi eksplisit agar LLM memenangkan permainan
Fine-tuning membantu, dan contoh dapat menggantikan fine-tuning
Akan menyenangkan bermain catur melawan LLM tanpa terlalu memikirkan prompt