- Pada ujian CSAT Bahasa Korea tahun akademik 2025, O1-Preview mencatat skor luar biasa, yaitu 97 poin
- Nomor 8 (3 poin), soal bacaan nonfiksi dijawab salah
- Memilih opsi nomor 3 yang salah karena kesalahan logika
- Jika Anda ingin tahu lebih banyak tentang proses benchmark, saya juga telah menulis blog yang merangkum proses eksperimen dan detail tambahan, jadi silakan lihat sebagai referensi!
- Hasil model GPT dalam benchmark LLM CSAT Bahasa Korea 2025
🥇 1st. o1-Preview: 97 poin (tingkat 1)
🥈 2nd. o1-mini: 78 poin (tingkat 4)
🥉 3rd. gpt-4o: 75 poin (tingkat 4): gpt-4o
4th. gpt-4o-mini: 59 poin (tingkat 5)
5th. gpt-3.5-turbo: 16 poin (tingkat 8)
- Tujuan proyek leaderboard benchmark LLM CSAT
- Berbagi informasi benchmark untuk membandingkan human performance dan LLM performance
- Dataset benchmark pilihan dari KICE, lembaga evaluasi paling otoritatif di Korea untuk menilai kemampuan berbahasa Korea
- Mencegah data leakage dengan dataset benchmark CSAT Bahasa Korea terbaru yang diperbarui setiap tahun
- Mendorong open-source LLM yang tidak bergantung pada negara atau perusahaan tertentu agar mencapai tingkat 1 pada CSAT Korea
- Proyek ini dijalankan oleh Markr.AI.
- Benchmark ini dilakukan dengan memanfaatkan AutoRAG open source!
- Tutorial untuk melakukan benchmark CSAT Bahasa Korea 2023 di leaderboard telah diperbarui di sini!
- Jika ada hal yang ingin Anda tanyakan, jangan ragu untuk menghubungi kami kapan saja!
1 komentar
Tautan blog-nya terpotong! Saya akan unggah lagi di komentar!
https://velog.io/@minsing-jin/…