LogicKor: Benchmark Kemampuan Bernalar Lintas Bidang untuk Model Bahasa Korea

(github.com/StableFluffy)

14 poin oleh libner 2024-03-29 | 3 komentar | Bagikan ke WhatsApp

Disebut sebagai benchmark model bahasa Korea yang dibuat dengan terinspirasi dari MT-Bench, benchmark di ranah berbahasa Inggris yang terdiri dari 10 pertanyaan untuk masing-masing dari 8 kategori.
Pembuatnya mengatakan bahwa benchmark ini dibuat setelah melihat keterbatasan pada benchmark model bahasa Korea yang saat ini digunakan.

Di bawah ini adalah kutipan dari tulisan pembuatnya tentang benchmark LogicKor.

Kami membagi 6 topik yang dapat digunakan untuk menilai kemampuan bernalar model bahasa Korea seperti di bawah ini.  
Penalaran (Reasoning) - pemikiran logis, pemecahan masalah  
Matematika (Math) - konsep matematika, perhitungan  
Menulis (Writing) - keterkaitan antar kalimat, kreativitas  
Coding (Coding) - pengetahuan coding, implementasi fungsi  
Pemahaman (Understanding) - pemahaman bacaan, ekstraksi informasi, mengikuti instruksi  
Tata bahasa (Grammar) - ejaan Hangul, aturan pelafalan standar  
  
Dan, untuk setiap topik, kami membuat 7 pertanyaan multi-turn.

3 komentar

skymer 2024-03-29

Tidak ada penjelasan khusus di repo, tetapi bisakah Anda juga melampirkan tautan untuk tulisan yang Anda kutip?

libner 2024-03-29

Karena ini adalah tulisan yang diposting di situs komunitas, pilihan katanya bisa agak keras... Jadi saya khawatir kolom komentarnya bisa jadi kacau, sehingga sebelumnya saya tidak mencantumkan tautan ke tulisannya.
Berikut alamat tulisannya: https://arca.live/b/alpaca/102052014

skymer 2024-03-29

Terima kasih! Saya juga sempat merasa Upstage menyebarkan hasil benchmark yang cukup meragukan, jadi ternyata bukan cuma saya yang berpikir begitu.. Performa ClovaX yang saya rasakan juga tidak terlalu bagus, tapi di antara model Korea justru peringkat 1 ya.

LogicKor: Benchmark Kemampuan Bernalar Lintas Bidang untuk Model Bahasa Korea

Bacaan terkait

3 komentar