ko-arena-hard-auto: Benchmark untuk Mengukur Performa Bahasa Korea pada LLM
(github.com/qwopqwop200)Leaderboard / Kode / Dataset
Preferensi manusia adalah salah satu indikator penting untuk mengevaluasi performa llm.
Namun, preferensi manusia sangat sulit dan mahal untuk diukur.
Ada pendekatan seperti MT-Bench dan Arena-Hard-Auto yang menggunakan LLM-as-a-Judge untuk mengatasi masalah ini.
Namun, benchmark sebelumnya ditujukan untuk bahasa Inggris.
Tentu saja, untuk bahasa Korea juga ada benchmark yang bagus seperti KoMT-Bench, LogicKor, dan Horangi.
Namun, benchmark yang ada saat ini berbasis MT-Bench, dan MT-Bench diketahui memiliki korelasi dengan preferensi manusia serta daya pembeda yang lebih rendah dibandingkan Arena-Hard-Auto.
Untuk mengatasi masalah ini, ko-arena-hard-auto berbasis pada Arena-Hard-Auto, dan menggunakan 500 pertanyaan sulit dan menantang dari Arena-Hard-Auto yang telah diterjemahkan ke dalam bahasa Korea.
Terjemahan dilakukan dengan GPT-4o dan o1 lalu ditinjau secara manual.
Selain itu, ada 3 perbedaan besar dibandingkan Arena-Hard-Auto yang sudah ada.
- Menggunakan system prompt judge yang mempertimbangkan code-mixing dan code-switching.
- Menggunakan gemini-2.0-flash, gpt-4o-mini, dan deepseek-chat-v3-0324 sebagai model judge lalu meng-ensemble hasilnya. Ini mengurangi bias preferensi diri dan dapat mengukur performa dengan biaya lebih rendah dibanding Arena-Hard-Auto yang sudah ada.
- Model baseline menggunakan claude-3.7-sonnet. Dengan mempertimbangkan performa LLM yang terus meningkat secara merata, claude-3.7-sonnet yang merupakan LLM kuat ditetapkan sebagai baseline.
Hasil benchmark dapat dilihat di: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
Kode: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
Belum ada komentar.