25 poin oleh ironman0722 2024-10-18 | 10 komentar | Bagikan ke WhatsApp
  • Nilai Bahasa Korea CSAT 2024, o1-preview mencapai grade 1 (88 poin, grade 1, 4% teratas)
  • gpt-4o saat ini berada di peringkat 1, llama-3.1-405B-instruct di peringkat 2, dan Qwen-2.5-72B di peringkat 3
    • Untuk saat ini, selain gpt o1-preview, model-model lain masih berkutat di grade 3–4
    • Terlihat bahwa banyak model masih kesulitan menyamai Human performance dalam domain bahasa Korea.
  • Kinerja LLM dievaluasi melalui dataset berkualitas tinggi berupa soal Bahasa Korea CSAT yang baru setiap tahun
    • Mencakup bacaan dari berbagai bidang (humaniora, sosial, sains, teknologi, seni), sastra, berbicara, dan menulis
  • Dengan menggunakan sistem skor standar dan grade yang sama seperti CSAT sebenarnya, Human performance dan performance LLM dapat dibandingkan
  • Bisa mengajukan benchmarking untuk model fine-tuning Hugging Face Anda sendiri atau model lain yang ingin diuji

Kami telah membuka leaderboard benchmark lllm Bahasa Korea CSAT!

Leaderboard ini mengukur kemampuan bahasa Korea LLM berdasarkan soal Bahasa Korea CSAT berkualitas tinggi. Dengan menerapkan metode perhitungan skor standar dan grade dari CSAT, leaderboard ini memungkinkan perbandingan performa model dengan Human performance, dan dibuka untuk berbagi informasi dengan banyak orang.

Masukan selalu kami sambut!

i.e)

  • Sumber daya GPU untuk evaluasi model saat ini masih terbatas. Jika ada yang memungkinkan untuk melakukan donasi GPU, kami akan sangat berterima kasih!

  • Karena masalah biaya API, kami belum dapat menguji o1-preview, dan akan mengujinya segera setelah versi resmi o1 dirilis.

10 komentar

 
roxie 2024-10-24

Ternyata mereka menyebut Suneung sebagai CSAT.

 
doolayer 2024-10-21

Ada juga gambar dalam bacaan bahasa Korea, jadi saya penasaran kenapa tidak dibuat multimodal?

 
ironman0722 2024-10-21

Terima kasih atas ketertarikan Anda pada leaderboard ini!

Alasan pertama adalah masalah biaya. Saat kami membuat data CSAT, pada saat itu GPT-4 Turbo baru dirilis tahun lalu, sehingga biaya yang timbul untuk membuat data CSAT selama 10 tahun cukup besar.

Alasan kedua adalah bahwa untuk menyelesaikan soal CSAT, semua petunjuk termasuk informasi gambar harus dimasukkan ke dalam penjelasan. Namun, saat menggunakan multimodal ada keterbatasan, sehingga kami menulis sendiri penjelasan untuk gambar tersebut.

 
ilotoki0804 2024-10-18

Menarik! Saat melihat leaderboard, saya jadi punya beberapa pertanyaan dan akan berterima kasih jika Anda bisa menjawabnya.

  1. Saat menggunakan LLM, berapa lama waktu yang dibutuhkan untuk menyelesaikan seluruh soal? Untuk ujian Bahasa Korea CSAT ada batas waktu 80 menit (termasuk waktu mengisi OMR), jadi saya penasaran kira-kira berapa lama LLM membutuhkan waktu untuk mengerjakan semua soal.
  2. Apakah akan keluar tingkat nilai yang sama meskipun ujiannya mudah? Secara ekstrem, pada ujian simulasi bulan September kali ini, batas nilai untuk grade 1 sampai 100 poin karena ujiannya sangat mudah. Jadi saya penasaran, meskipun mengikuti ujian simulasi tersebut, apakah model tetap bisa memperoleh grade yang mirip dengan saat mengerjakan ujian simulasi lain.

Perkiraan saya, waktu yang dipakai akan jauh lebih singkat dari 80 menit, dan bahkan pada ujian yang mudah pun skor absolutnya akan tetap mirip, tetapi saya penasaran bagaimana hasilnya dalam praktik nyata.

 
ironman0722 2024-10-21

Terima kasih banyak atas perhatian besarnya pada leaderboard benchmark LLM Bahasa Korea CSAT! Untuk menjawab pertanyaannya:

  1. Paling singkat sekitar 10 menit, paling lama sekitar 25 menit.
  2. Jika dilihat hanya dari hasilnya, ada model yang tampaknya dipengaruhi oleh tingkat kesulitan ujian dalam menyelesaikan soal LLM, dan ada juga yang tidak, jadi sepertinya sulit untuk menggeneralisasikannya.

Sebagai contoh, untuk gpt-4o, kami dapat melihat bahwa model ini memperoleh skor yang lebih baik pada CSAT yang lebih mudah antara 2015 hingga 2018, saat skor standar tertinggi berada di kisaran 130-an, dan peringkatnya juga cenderung lebih baik dibandingkan ujian yang lebih sulit di tahun lain.
Namun, untuk model Meta Llama 3.1 70B, dibandingkan dengan perolehan peringkat dan skor standar yang rendah pada CSAT periode 2015 hingga 2018, pada CSAT 2022 yang mencatat skor standar tertinggi di kisaran 149 poin, ada kasus di mana model ini justru memperoleh peringkat 3.

Kalau masih ada hal yang ingin ditanyakan atau penjelasan yang perlu dilengkapi, silakan beri tahu kapan saja!

 
ilotoki0804 2024-10-21

Oh... tiap model tampaknya punya kecenderungan yang sedikit berbeda, ya? Benar-benar terasa seperti manusia. Terima kasih atas penjelasan yang detail!

 
doolayer 2024-10-21

Untuk nomor 1,
pada akhirnya ini adalah 45 soal pilihan ganda dengan 5 opsi, jadi sepertinya dapat diselesaikan untuk 45 sampel (input) dengan 1 token (1,2,3,4,5) dalam beberapa ratus detik.

 
savvykang 2024-10-18

Rasanya aneh sekaligus menarik saat AI diberi nilai seperti peringkat ujian CSAT bahasa Korea.

 
mammal 2024-10-18

Ini benchmark Bahasa Korea untuk CSAT, tapi ironisnya README-nya berbahasa Inggris.

 
ng0301 2024-10-18

Untuk standar bahasa Korea, sepertinya memang tidak ada data benchmark open source berkualitas tinggi sebesar ini wkwk