Leaderboard benchmark LLM Bahasa Korea CSAT dibuka
(github.com/minsing-jin)- Nilai Bahasa Korea CSAT 2024, o1-preview mencapai grade 1 (88 poin, grade 1, 4% teratas)
- gpt-4o saat ini berada di peringkat 1, llama-3.1-405B-instruct di peringkat 2, dan Qwen-2.5-72B di peringkat 3
- Untuk saat ini, selain gpt o1-preview, model-model lain masih berkutat di grade 3–4
- Terlihat bahwa banyak model masih kesulitan menyamai Human performance dalam domain bahasa Korea.
- Kinerja LLM dievaluasi melalui dataset berkualitas tinggi berupa soal Bahasa Korea CSAT yang baru setiap tahun
- Mencakup bacaan dari berbagai bidang (humaniora, sosial, sains, teknologi, seni), sastra, berbicara, dan menulis
- Dengan menggunakan sistem skor standar dan grade yang sama seperti CSAT sebenarnya, Human performance dan performance LLM dapat dibandingkan
- Bisa mengajukan benchmarking untuk model fine-tuning Hugging Face Anda sendiri atau model lain yang ingin diuji
Kami telah membuka leaderboard benchmark lllm Bahasa Korea CSAT!
Leaderboard ini mengukur kemampuan bahasa Korea LLM berdasarkan soal Bahasa Korea CSAT berkualitas tinggi. Dengan menerapkan metode perhitungan skor standar dan grade dari CSAT, leaderboard ini memungkinkan perbandingan performa model dengan Human performance, dan dibuka untuk berbagi informasi dengan banyak orang.
Masukan selalu kami sambut!
i.e)
-
Sumber daya GPU untuk evaluasi model saat ini masih terbatas. Jika ada yang memungkinkan untuk melakukan donasi GPU, kami akan sangat berterima kasih!
-
Karena masalah biaya API, kami belum dapat menguji o1-preview, dan akan mengujinya segera setelah versi resmi o1 dirilis.
10 komentar
Ternyata mereka menyebut Suneung sebagai CSAT.
Ada juga gambar dalam bacaan bahasa Korea, jadi saya penasaran kenapa tidak dibuat multimodal?
Terima kasih atas ketertarikan Anda pada leaderboard ini!
Alasan pertama adalah masalah biaya. Saat kami membuat data CSAT, pada saat itu GPT-4 Turbo baru dirilis tahun lalu, sehingga biaya yang timbul untuk membuat data CSAT selama 10 tahun cukup besar.
Alasan kedua adalah bahwa untuk menyelesaikan soal CSAT, semua petunjuk termasuk informasi gambar harus dimasukkan ke dalam penjelasan. Namun, saat menggunakan multimodal ada keterbatasan, sehingga kami menulis sendiri penjelasan untuk gambar tersebut.
Menarik! Saat melihat leaderboard, saya jadi punya beberapa pertanyaan dan akan berterima kasih jika Anda bisa menjawabnya.
Perkiraan saya, waktu yang dipakai akan jauh lebih singkat dari 80 menit, dan bahkan pada ujian yang mudah pun skor absolutnya akan tetap mirip, tetapi saya penasaran bagaimana hasilnya dalam praktik nyata.
Terima kasih banyak atas perhatian besarnya pada leaderboard benchmark LLM Bahasa Korea CSAT! Untuk menjawab pertanyaannya:
Sebagai contoh, untuk
gpt-4o, kami dapat melihat bahwa model ini memperoleh skor yang lebih baik pada CSAT yang lebih mudah antara 2015 hingga 2018, saat skor standar tertinggi berada di kisaran 130-an, dan peringkatnya juga cenderung lebih baik dibandingkan ujian yang lebih sulit di tahun lain.Namun, untuk model Meta Llama 3.1 70B, dibandingkan dengan perolehan peringkat dan skor standar yang rendah pada CSAT periode 2015 hingga 2018, pada CSAT 2022 yang mencatat skor standar tertinggi di kisaran 149 poin, ada kasus di mana model ini justru memperoleh peringkat 3.
Kalau masih ada hal yang ingin ditanyakan atau penjelasan yang perlu dilengkapi, silakan beri tahu kapan saja!
Oh... tiap model tampaknya punya kecenderungan yang sedikit berbeda, ya? Benar-benar terasa seperti manusia. Terima kasih atas penjelasan yang detail!
Untuk nomor 1,
pada akhirnya ini adalah 45 soal pilihan ganda dengan 5 opsi, jadi sepertinya dapat diselesaikan untuk 45 sampel (input) dengan 1 token (1,2,3,4,5) dalam beberapa ratus detik.
Rasanya aneh sekaligus menarik saat AI diberi nilai seperti peringkat ujian CSAT bahasa Korea.
Ini benchmark Bahasa Korea untuk CSAT, tapi ironisnya README-nya berbahasa Inggris.
Untuk standar bahasa Korea, sepertinya memang tidak ada data benchmark open source berkualitas tinggi sebesar ini wkwk