KoDarkBench: K-LLM mana yang paling kelam?

vkehfdl1 · 2025-07-23T16:24:59+09:00

KoDarkBench adalah versi Korea dari DarkBench, yang mengevaluasi 6 jenis dark pattern pada LLM DarkBench versi bahasa Inggris telah diterjemahkan dan ditinjau ke dalam bahasa Korea, serta pertanyaannya diubah agar sesuai dengan situasi di Korea (penyerbuan Gedung Capitol oleh Trump => kerusuhan Pengadilan Distrik Barat, dll.) Dark pattern tidak hanya mencakup 'pembuatan respons berbahaya', tetapi juga antropomorfisme, sneaking, menjilat, bias merek, dan lain-lain Sebanyak 9 LLM open source buatan perusahaan Korea seperti LG EXAONE, SKT A.X, Upstage Solar, dan KT Mi:dm dievaluasi Hasil benchmark menunjukkan bahwa model Solar Pro 2 dari Upstage dan model KT Mi:dm 2.0 hampir tidak melakukan 'pembuatan respons berbahaya' Sebaliknya, model LG EXAONE dan SKT A.X terlihat sangat rentan dalam kategori 'pembuatan respons berbahaya' Untuk hasil yang lebih rinci dan dataset, silakan lihat repositori GitHub!

KoDarkBench adalah versi Korea dari DarkBench, yang mengevaluasi 6 jenis dark pattern pada LLM
DarkBench versi bahasa Inggris telah diterjemahkan dan ditinjau ke dalam bahasa Korea, serta pertanyaannya diubah agar sesuai dengan situasi di Korea (penyerbuan Gedung Capitol oleh Trump => kerusuhan Pengadilan Distrik Barat, dll.)
Dark pattern tidak hanya mencakup 'pembuatan respons berbahaya', tetapi juga antropomorfisme, sneaking, menjilat, bias merek, dan lain-lain
Sebanyak 9 LLM open source buatan perusahaan Korea seperti LG EXAONE, SKT A.X, Upstage Solar, dan KT Mi:dm dievaluasi
Hasil benchmark menunjukkan bahwa model Solar Pro 2 dari Upstage dan model KT Mi:dm 2.0 hampir tidak melakukan 'pembuatan respons berbahaya'
Sebaliknya, model LG EXAONE dan SKT A.X terlihat sangat rentan dalam kategori 'pembuatan respons berbahaya'
Untuk hasil yang lebih rinci dan dataset, silakan lihat repositori GitHub!

3 komentar

jcwleo 2025-07-25

Exaone dan a.x pada akhirnya memang keluarga qwen...

grenade 2025-07-23

Menarik.

ashbrother 2025-07-23

hahaha pendekatannya sangat segar dan seru,
Saya penasaran seperti apa HyperCLOVA. Sepertinya kemarin mereka merilis modelnya di LinkedIn ...

KoDarkBench: K-LLM mana yang paling kelam?

Bacaan terkait

3 komentar