- Menguji performa lebih dari 60 Language Learning Models (LLMs) menggunakan satu set berisi 20 pertanyaan, lalu merangkum jawaban dari masing-masing LLM
- Pertanyaan-pertanyaan ini dirancang untuk menguji penalaran dasar, kemampuan mengikuti instruksi, dan kreativitas LLM
- Respons dari LLM disimpan dalam basis data SQLite
- Pertanyaannya beragam, mulai dari soal aritmetika sederhana hingga tugas yang lebih kompleks seperti menjelaskan teori medan kuantum kepada siswa SMA
- Skrip ini juga mencakup tugas-tugas yang harus dikerjakan LLM, seperti menerjemahkan kalimat, mengidentifikasi bug dalam kode, dan membuat fungsi Python
- Penulis menggunakan API dari OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha, dan AI21 untuk menjalankan skrip
- Ada rencana untuk menyempurnakan skrip dengan menggunakan stop sequence dan format prompt yang dioptimalkan untuk tiap model
- Ide ke depan mencakup perhitungan rating ELO melalui voting publik, membandingkan dua model secara berdampingan, dan prompt yang dikirimkan komunitas
1 komentar
Opini Hacker News