-
Fenomena aneh pada LLM dan catur
- Ada diskusi tentang apakah LLM (large language model) bisa bermain catur dengan baik. LLM dirancang untuk prediksi bahasa, tetapi menunjukkan kemampuan untuk memprediksi permainan catur.
- Fakta bahwa LLM bisa memainkan permainan catur hingga selesai terasa menarik. Ini bisa menjadi petunjuk tentang bagaimana LLM bekerja dalam situasi lain.
-
Yang saya lakukan
- Untuk membuat LLM bermain catur, digunakan prompt tertentu. Misalnya, meminta dengan kalimat seperti, "Anda adalah grandmaster catur. Pilih langkah berikutnya."
- Model
llama-3.2-3b digunakan untuk memainkan 50 permainan, tetapi hasilnya tidak bagus. Model yang lebih besar seperti llama-3.1-70b dan llama-3.1-70b-instruct juga dicoba, namun tetap tidak bagus.
- Model
gpt-3.5-turbo-instruct menunjukkan performa yang sangat baik. Namun, semua model lain menunjukkan hasil yang buruk.
-
Diskusi
- Banyak orang mencoba menggunakan LLM untuk bermain catur, tetapi sebagian besar model tidak memberikan hasil yang baik.
- Ada berbagai teori tentang mengapa model
gpt-3.5-turbo-instruct lebih baik bermain catur dibanding model lain.
- Ada teori bahwa instruction tuning tambahan dapat menurunkan performa model.
-
Teori yang mungkin
- Teori 1: Model dasar pada skala yang cukup dapat bermain catur, tetapi instruction tuning mengganggunya.
- Teori 2: Ada kemungkinan
gpt-3.5-instruct dilatih dengan lebih banyak permainan catur.
- Teori 3: Mungkin ada perbedaan pada arsitektur transformer lainnya.
- Teori 4: Mungkin ada "kompetisi" antar jenis data.
-
Detail
- Eksperimen dilakukan menggunakan notasi aljabar standar untuk permainan catur.
- Model OpenAI tidak memiliki dukungan grammar penuh, sehingga dicoba hingga 10 kali sampai menghasilkan langkah yang legal.
-
Anomali token
- Jika prompt mengandung spasi, performa model turun drastis. Ini tampaknya merupakan masalah tokenizer.
- Cara yang benar adalah menggunakan "token healing", tetapi tidak ditemukan cara yang mudah untuk mengimplementasikannya.
1 komentar
Komentar Hacker News
Tampaknya ada kemungkinan yang terlewat bahwa OpenAI menjadikan catur sebagai tolok ukur penting dan memberi perlakuan khusus pada gpt-3.5-turbo-instruct, tetapi tidak menambahkannya pada model-model penerus
Saya menjalankan semua model terbuka dengan kuantisasi Q5_K_M, tetapi saya rasa itu tidak penting karena hanya merupakan kompresi lossy pada semua parameter
Saya tidak mengerti mengapa orang-orang terdidik berharap LLM akan jago bermain catur
Saya penasaran apakah hasil yang bagus itu bisa diulang
Jika benar-benar menginginkan model yang cerdas, saya pikir kita mungkin harus berhenti melakukan tokenisasi
Saya menemukan hasil eksperimen bahwa gpt-3.5-turbo-instruct lebih unggul dalam catur
Jika belajar catur berarti mempelajari urutan, masalah bisa muncul
Kita bisa mencoba menambah komputasi pada ruang pencarian masalah
Ada teori bahwa GPT-3.5-instruct dapat memanggil mesin catur tradisional untuk bermain catur
Kita tahu bahwa ada berbagai jenis keterampilan dan kecerdasan dalam beragam pengalaman manusia