8 poin oleh GN⁺ 2024-08-19 | 3 komentar | Bagikan ke WhatsApp

"Apakah Anda lebih pintar daripada model bahasa?"

Banyak benchmark mencoba menilai seberapa baik model bahasa menjalankan tugas manusia.
Namun, seberapa baik Anda bisa melakukannya dalam tugas khas model bahasa, yaitu memprediksi kata berikutnya?

Cobalah selesaikan 15 soal

3 komentar

 
curioe 2024-08-19

4 poin... hasilnya bikin kesel banget

 
xguru 2024-08-19

Ya ampun. Karena aku mengerjakannya seperti mengerjakan soal bahasa Inggris, nilainya jadi sangat jelek hu hu

 
GN⁺ 2024-08-19
Pendapat Hacker News
  • Tidak seperti yang diharapkan dari judul "smart", tetapi idenya menarik

    • Akan lebih baik jika hanya menampilkan satu pertanyaan pada satu waktu dan memberikan umpan balik langsung setelah setiap jawaban
    • Dengan begitu akan terasa lebih imersif, dan bermanfaat karena bisa langsung melihat jawaban yang benar
  • Dibuat sebuah permainan/kuis menebak kata berikutnya dari komentar Hacker News

    • Menggunakan llama2 untuk menghasilkan tiga penyelesaian alternatif bagi tiap komentar sehingga menjadi pertanyaan pilihan ganda
    • Model bahasa lokal memilih jawaban dengan perplexity total terendah untuk prompt dan jawaban
    • Model OpenAI diatur dengan logit_bias agar hanya memilih salah satu dari jawaban yang diizinkan
    • Tidak bisa dibandingkan dengan Claude atau LLM online lainnya
    • Kuis ini mungkin tidak bisa dibilang seru, tetapi saya bisa konsisten mempertahankan tingkat jawaban benar di atas 50%
  • Strategi untuk menang adalah memilih kata yang paling kecil kemungkinannya dipilih oleh model bahasa

    • Memilih "outlier" adalah strategi terbaik
    • Ini bisa menjadi strategi sederhana untuk mendeteksi konten AI
  • Dari hasilnya terlihat bahwa mustahil memprediksi kata berikutnya secara akurat hanya dengan informasi yang diberikan

    • Akan lebih baik jika jawaban diurutkan berdasarkan kemungkinan, lalu diberi skor berdasarkan seberapa tinggi jawaban benar diperingkatkan
    • Saya penasaran apakah LLM mencoba meniru suara penulis aslinya
  • Permainan ini adalah tes yang bagus untuk melihat apakah Anda terlalu banyak membaca komentar HN

  • Karena menerima kuis acak setiap kali, hasilnya tidak bisa dibandingkan

    • Jika ditemukan korpus tempat orang rata-rata bisa mengalahkan LLM, lalu ditambahkan tantangan harian gaya Wordle dan fitur berbagi ke media sosial, ini bisa berpotensi viral
  • Berkat waktu yang saya habiskan di HN, saya bisa membuat prediksi yang sedikit lebih baik daripada AI

  • Untuk orang yang mencoba kuis 100 soal: menurut standar statistik tradisional, Anda harus menjawab benar lebih dari sepertiga agar dianggap lebih baik daripada sekadar menebak

    • Untuk menjadi lebih baik daripada LLM, Anda harus menjawab benar lebih dari setengahnya
  • Jika sampelnya berasal dari HN, ada kemungkinan teks itu sudah menjadi bagian dari dataset

    • Jika melihat komentar terbaru, kemungkinan besar tidak demikian
    • ChatGPT memang bisa menggunakan alat pencarian Bing, tetapi kecil kemungkinan model API gpt4o-mini melakukan itu
  • Sebagian cuplikan diambil dari konteks yang lebih besar, sehingga LLM berada pada posisi yang menguntungkan untuk melakukan prediksi