1 poin oleh GN⁺ 2024-11-23 | 1 komentar | Bagikan ke WhatsApp
  • Belakangan ini ada misteri bahwa model bahasa besar (LLM) ternyata tidak terlalu pandai bermain catur. Namun, gpt-3.5-turbo-instruct menjadi pengecualian karena bermain catur cukup baik di tingkat amatir. Model ini lebih tua dan juga lebih kecil dibanding model-model terbaru lainnya.

  • Beberapa teori diajukan:

    • Teori 1: model dasar yang cukup besar sebenarnya pandai bermain catur, tetapi hal itu tidak berlaku setelah penyesuaian instruksi menjadi model chat.
    • Teori 2: ada kemungkinan gpt-3.5-turbo-instruct dilatih dengan lebih banyak data catur.
    • Teori 3: ada sesuatu yang istimewa pada arsitektur LLM tertentu.
    • Teori 4: ada "persaingan" antartipe data, sehingga agar LLM bisa bermain catur dengan baik, data permainan catur harus banyak.
    • Teori 5: tuduhan bahwa OpenAI berbuat curang.
    • Teori 6: klaim bahwa LLM sebenarnya tidak bisa bermain catur.
  • Tuduhan bahwa OpenAI berbuat curang sulit dipercaya. gpt-3.5-turbo-instruct memilih langkah dengan cara yang berbeda dari mesin catur, dan menurut standar pakar performanya juga tidak luar biasa.

  • LLM memang bisa bermain catur. gpt-3.5-turbo-instruct hampir tidak pernah mengusulkan langkah ilegal, dan juga bermain dengan baik pada keadaan papan yang baru.

  • gpt-3.5-turbo-instruct adalah model "completion" yang menerima teks lalu menghasilkan teks baru. gpt-4o-mini dan gpt-4o adalah model "chat" yang menggunakan system prompt dan user prompt.

  • Melalui berbagai eksperimen, dikonfirmasi bahwa penyesuaian prompt, penambahan contoh, dan fine-tuning dapat memengaruhi performa model.

  • Penambahan contoh memberi dampak besar pada performa, dan fine-tuning juga membantu. Namun, pemberian langkah legal justru menurunkan performa.

  • Jika gpt-4o diarahkan agar bekerja seperti mode "completion", performanya meningkat. Ini menunjukkan bahwa gpt-4-base mungkin pandai bermain catur.

  • Kesimpulannya, besar kemungkinan model dasar OpenAI telah dilatih dengan lebih banyak data catur, dan model chat bisa memiliki performa yang lebih rendah dibanding model completion.

  • Menemukan prompt, contoh, dan fine-tuning yang optimal adalah pekerjaan yang sulit dan mahal.

1 komentar

 
GN⁺ 2024-11-23
Opini Hacker News
  • Penulis tidak menyediakan data tentang frekuensi langkah ilegal, sehingga sulit menarik kesimpulan yang bermakna

    • Misalnya, ini mirip seperti mengklaim LLM adalah dokter setingkat ahli sambil hanya menyajikan data yang mengecualikan saran medis yang salah
  • gpt-3.5-turbo-instruct hampir tidak pernah mengusulkan langkah ilegal bahkan di endgame

    • Ada klaim bahwa model ini bisa "memahami" catur dan "berpikir logis"
    • Hal ini dipertanyakan, mengingat bahkan pemain catur "amatir tingkat lanjut" pun jarang melakukan langkah ilegal
  • Salah satu cara menguji apakah model memahami catur adalah memintanya memilih langkah berikutnya dari 1000 posisi legal acak

    • Dicek apakah model tidak mengusulkan langkah ilegal pada posisi yang dihasilkan melalui proyek ChessPositionRanking
    • Posisi-posisi ini berguna untuk menguji legalitas langkah berikutnya, tetapi kurang berguna untuk membedakan kualitas
  • Tidak semua orang salah

    • Harus diasumsikan bahwa benchmark yang dipublikasikan menjadi target tertentu selama pelatihan
    • Wajar jika OpenAI memasukkan permainan catur ke dalam data pelatihan
  • LLM terasa seperti sedang mencari mantra

    • Ada harapan inovasi teknologi terus berlanjut, dan LLM memang menakjubkan tetapi kadang terasa seperti film SF
  • Ada klaim bahwa pelatihan dengan sampel kode meningkatkan "penalaran"

    • Jika makalah tentang "world model from language" benar-benar bekerja, maka catur seharusnya menjadi contoh terkecilnya
  • Mungkin ada kasus khusus di mana gpt-3.5-turbo-instruct mengenali notasi catur dan memanggil engine catur eksternal

    • Muncul kemungkinan bahwa model tertentu dilatih untuk beralih ke LLM lain saat mengenali notasi catur tertentu
  • Hasilnya diukur meskipun tidak ada instruksi eksplisit agar LLM memenangkan permainan

    • Dipertanyakan apakah hal itu sudah tersirat dalam prompt "Anda adalah grandmaster catur"
  • Fine-tuning membantu, dan contoh dapat menggantikan fine-tuning

    • Menarik bahwa memberikan contoh bisa menghasilkan efek yang setara dengan fine-tuning
  • Akan menyenangkan bermain catur melawan LLM tanpa terlalu memikirkan prompt

    • Ini bisa menjadi cara baru untuk merasakan bagaimana LLM "berpikir"