ko-arena-hard-auto: Benchmark untuk Mengukur Performa Bahasa Korea pada LLM

(github.com/qwopqwop200)

7 poin oleh qwopqwop200 2025-04-06 | Belum ada komentar. | Bagikan ke WhatsApp

Preferensi manusia adalah salah satu indikator penting untuk mengevaluasi performa llm.
Namun, preferensi manusia sangat sulit dan mahal untuk diukur.
Ada pendekatan seperti MT-Bench dan Arena-Hard-Auto yang menggunakan LLM-as-a-Judge untuk mengatasi masalah ini.
Namun, benchmark sebelumnya ditujukan untuk bahasa Inggris.

Tentu saja, untuk bahasa Korea juga ada benchmark yang bagus seperti KoMT-Bench, LogicKor, dan Horangi.

Namun, benchmark yang ada saat ini berbasis MT-Bench, dan MT-Bench diketahui memiliki korelasi dengan preferensi manusia serta daya pembeda yang lebih rendah dibandingkan Arena-Hard-Auto.

Untuk mengatasi masalah ini, ko-arena-hard-auto berbasis pada Arena-Hard-Auto, dan menggunakan 500 pertanyaan sulit dan menantang dari Arena-Hard-Auto yang telah diterjemahkan ke dalam bahasa Korea.
Terjemahan dilakukan dengan GPT-4o dan o1 lalu ditinjau secara manual.

Selain itu, ada 3 perbedaan besar dibandingkan Arena-Hard-Auto yang sudah ada.

Menggunakan system prompt judge yang mempertimbangkan code-mixing dan code-switching.
Menggunakan gemini-2.0-flash, gpt-4o-mini, dan deepseek-chat-v3-0324 sebagai model judge lalu meng-ensemble hasilnya. Ini mengurangi bias preferensi diri dan dapat mengukur performa dengan biaya lebih rendah dibanding Arena-Hard-Auto yang sudah ada.
Model baseline menggunakan claude-3.7-sonnet. Dengan mempertimbangkan performa LLM yang terus meningkat secara merata, claude-3.7-sonnet yang merupakan LLM kuat ditetapkan sebagai baseline.

Hasil benchmark dapat dilihat di: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

Kode: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

ko-arena-hard-auto: Benchmark untuk Mengukur Performa Bahasa Korea pada LLM

Bacaan terkait

Belum ada komentar.