LogicKor: Benchmark Kemampuan Bernalar Lintas Bidang untuk Model Bahasa Korea
(github.com/StableFluffy)Disebut sebagai benchmark model bahasa Korea yang dibuat dengan terinspirasi dari MT-Bench, benchmark di ranah berbahasa Inggris yang terdiri dari 10 pertanyaan untuk masing-masing dari 8 kategori.
Pembuatnya mengatakan bahwa benchmark ini dibuat setelah melihat keterbatasan pada benchmark model bahasa Korea yang saat ini digunakan.
Di bawah ini adalah kutipan dari tulisan pembuatnya tentang benchmark LogicKor.
Kami membagi 6 topik yang dapat digunakan untuk menilai kemampuan bernalar model bahasa Korea seperti di bawah ini.
Penalaran (Reasoning) - pemikiran logis, pemecahan masalah
Matematika (Math) - konsep matematika, perhitungan
Menulis (Writing) - keterkaitan antar kalimat, kreativitas
Coding (Coding) - pengetahuan coding, implementasi fungsi
Pemahaman (Understanding) - pemahaman bacaan, ekstraksi informasi, mengikuti instruksi
Tata bahasa (Grammar) - ejaan Hangul, aturan pelafalan standar
Dan, untuk setiap topik, kami membuat 7 pertanyaan multi-turn.
3 komentar
Tidak ada penjelasan khusus di repo, tetapi bisakah Anda juga melampirkan tautan untuk tulisan yang Anda kutip?
Karena ini adalah tulisan yang diposting di situs komunitas, pilihan katanya bisa agak keras... Jadi saya khawatir kolom komentarnya bisa jadi kacau, sehingga sebelumnya saya tidak mencantumkan tautan ke tulisannya.
Berikut alamat tulisannya: https://arca.live/b/alpaca/102052014
Terima kasih! Saya juga sempat merasa Upstage menyebarkan hasil benchmark yang cukup meragukan, jadi ternyata bukan cuma saya yang berpikir begitu.. Performa ClovaX yang saya rasakan juga tidak terlalu bagus, tapi di antara model Korea justru peringkat 1 ya.