"Apakah Anda lebih pintar daripada model bahasa?"
Banyak benchmark mencoba menilai seberapa baik model bahasa menjalankan tugas manusia.
Namun, seberapa baik Anda bisa melakukannya dalam tugas khas model bahasa, yaitu memprediksi kata berikutnya?
Cobalah selesaikan 15 soal
3 komentar
4 poin... hasilnya bikin kesel banget
Ya ampun. Karena aku mengerjakannya seperti mengerjakan soal bahasa Inggris, nilainya jadi sangat jelek hu hu
Pendapat Hacker News
Tidak seperti yang diharapkan dari judul "smart", tetapi idenya menarik
Dibuat sebuah permainan/kuis menebak kata berikutnya dari komentar Hacker News
logit_biasagar hanya memilih salah satu dari jawaban yang diizinkanStrategi untuk menang adalah memilih kata yang paling kecil kemungkinannya dipilih oleh model bahasa
Dari hasilnya terlihat bahwa mustahil memprediksi kata berikutnya secara akurat hanya dengan informasi yang diberikan
Permainan ini adalah tes yang bagus untuk melihat apakah Anda terlalu banyak membaca komentar HN
Karena menerima kuis acak setiap kali, hasilnya tidak bisa dibandingkan
Berkat waktu yang saya habiskan di HN, saya bisa membuat prediksi yang sedikit lebih baik daripada AI
Untuk orang yang mencoba kuis 100 soal: menurut standar statistik tradisional, Anda harus menjawab benar lebih dari sepertiga agar dianggap lebih baik daripada sekadar menebak
Jika sampelnya berasal dari HN, ada kemungkinan teks itu sudah menjadi bagian dari dataset
Sebagian cuplikan diambil dari konteks yang lebih besar, sehingga LLM berada pada posisi yang menguntungkan untuk melakukan prediksi