5 poin oleh ironman0722 2024-11-19 | 1 komentar | Bagikan ke WhatsApp
  • Pada ujian CSAT Bahasa Korea tahun akademik 2025, O1-Preview mencatat skor luar biasa, yaitu 97 poin
    • Nomor 8 (3 poin), soal bacaan nonfiksi dijawab salah
      • Memilih opsi nomor 3 yang salah karena kesalahan logika
  • Jika Anda ingin tahu lebih banyak tentang proses benchmark, saya juga telah menulis blog yang merangkum proses eksperimen dan detail tambahan, jadi silakan lihat sebagai referensi!
  • Hasil model GPT dalam benchmark LLM CSAT Bahasa Korea 2025
    🥇 1st. o1-Preview: 97 poin (tingkat 1)
    🥈 2nd. o1-mini: 78 poin (tingkat 4)
    🥉 3rd. gpt-4o: 75 poin (tingkat 4): gpt-4o
    4th. gpt-4o-mini: 59 poin (tingkat 5)
    5th. gpt-3.5-turbo: 16 poin (tingkat 8)
  • Tujuan proyek leaderboard benchmark LLM CSAT
    1. Berbagi informasi benchmark untuk membandingkan human performance dan LLM performance
    2. Dataset benchmark pilihan dari KICE, lembaga evaluasi paling otoritatif di Korea untuk menilai kemampuan berbahasa Korea
    3. Mencegah data leakage dengan dataset benchmark CSAT Bahasa Korea terbaru yang diperbarui setiap tahun
    4. Mendorong open-source LLM yang tidak bergantung pada negara atau perusahaan tertentu agar mencapai tingkat 1 pada CSAT Korea

  • Proyek ini dijalankan oleh Markr.AI.
  • Benchmark ini dilakukan dengan memanfaatkan AutoRAG open source!
  • Tutorial untuk melakukan benchmark CSAT Bahasa Korea 2023 di leaderboard telah diperbarui di sini!
  • Jika ada hal yang ingin Anda tanyakan, jangan ragu untuk menghubungi kami kapan saja!

1 komentar

 
ironman0722 2024-11-22

Tautan blog-nya terpotong! Saya akan unggah lagi di komentar!
https://velog.io/@minsing-jin/…