1 poin oleh GN⁺ 2024-11-15 | 1 komentar | Bagikan ke WhatsApp
  • Fenomena aneh pada LLM dan catur

    • Ada diskusi tentang apakah LLM (large language model) bisa bermain catur dengan baik. LLM dirancang untuk prediksi bahasa, tetapi menunjukkan kemampuan untuk memprediksi permainan catur.
    • Fakta bahwa LLM bisa memainkan permainan catur hingga selesai terasa menarik. Ini bisa menjadi petunjuk tentang bagaimana LLM bekerja dalam situasi lain.
  • Yang saya lakukan

    • Untuk membuat LLM bermain catur, digunakan prompt tertentu. Misalnya, meminta dengan kalimat seperti, "Anda adalah grandmaster catur. Pilih langkah berikutnya."
    • Model llama-3.2-3b digunakan untuk memainkan 50 permainan, tetapi hasilnya tidak bagus. Model yang lebih besar seperti llama-3.1-70b dan llama-3.1-70b-instruct juga dicoba, namun tetap tidak bagus.
    • Model gpt-3.5-turbo-instruct menunjukkan performa yang sangat baik. Namun, semua model lain menunjukkan hasil yang buruk.
  • Diskusi

    • Banyak orang mencoba menggunakan LLM untuk bermain catur, tetapi sebagian besar model tidak memberikan hasil yang baik.
    • Ada berbagai teori tentang mengapa model gpt-3.5-turbo-instruct lebih baik bermain catur dibanding model lain.
    • Ada teori bahwa instruction tuning tambahan dapat menurunkan performa model.
  • Teori yang mungkin

    • Teori 1: Model dasar pada skala yang cukup dapat bermain catur, tetapi instruction tuning mengganggunya.
    • Teori 2: Ada kemungkinan gpt-3.5-instruct dilatih dengan lebih banyak permainan catur.
    • Teori 3: Mungkin ada perbedaan pada arsitektur transformer lainnya.
    • Teori 4: Mungkin ada "kompetisi" antar jenis data.
  • Detail

    • Eksperimen dilakukan menggunakan notasi aljabar standar untuk permainan catur.
    • Model OpenAI tidak memiliki dukungan grammar penuh, sehingga dicoba hingga 10 kali sampai menghasilkan langkah yang legal.
  • Anomali token

    • Jika prompt mengandung spasi, performa model turun drastis. Ini tampaknya merupakan masalah tokenizer.
    • Cara yang benar adalah menggunakan "token healing", tetapi tidak ditemukan cara yang mudah untuk mengimplementasikannya.

1 komentar

 
GN⁺ 2024-11-15
Komentar Hacker News
  • Tampaknya ada kemungkinan yang terlewat bahwa OpenAI menjadikan catur sebagai tolok ukur penting dan memberi perlakuan khusus pada gpt-3.5-turbo-instruct, tetapi tidak menambahkannya pada model-model penerus

    • Ini mungkin karena catur tidak menghasilkan liputan media yang berkelanjutan
  • Saya menjalankan semua model terbuka dengan kuantisasi Q5_K_M, tetapi saya rasa itu tidak penting karena hanya merupakan kompresi lossy pada semua parameter

  • Saya tidak mengerti mengapa orang-orang terdidik berharap LLM akan jago bermain catur

    • Catur membutuhkan penalaran yang nyata dan perhitungan deterministik
  • Saya penasaran apakah hasil yang bagus itu bisa diulang

    • Saya pernah mendapatkan hasil bagus di masa lalu, tetapi tidak bisa mereproduksinya lagi
    • Ekonomi modal ventura berarti ada tekanan untuk membenarkan teknik yang dianggap sebagai "tipuan"
  • Jika benar-benar menginginkan model yang cerdas, saya pikir kita mungkin harus berhenti melakukan tokenisasi

    • Dengan membatasi struktur aliran informasi, kita membatasi cara pandang dan persepsi model
  • Saya menemukan hasil eksperimen bahwa gpt-3.5-turbo-instruct lebih unggul dalam catur

  • Jika belajar catur berarti mempelajari urutan, masalah bisa muncul

    • Mesin catur modern setidaknya bisa mencatat hasil remis melawan semua pemain
  • Kita bisa mencoba menambah komputasi pada ruang pencarian masalah

    • Kita bisa menyesuaikan berbagai parameter dengan memberikan instruksi langkah demi langkah yang dapat dilakukan pemain catur pemula
  • Ada teori bahwa GPT-3.5-instruct dapat memanggil mesin catur tradisional untuk bermain catur

  • Kita tahu bahwa ada berbagai jenis keterampilan dan kecerdasan dalam beragam pengalaman manusia

    • Model yang pandai catur mungkin kebetulan memiliki 'konektivitas' yang tepat