Tiga benchmark VLM untuk mengevaluasi kemampuan bahasa Korea dirilis (KO-VQA, KO-VDC, KO-OCRAG)

Seiring meningkatnya minat terhadap VLM belakangan ini, dirilis benchmark yang dapat memeriksa kemampuan bahasa Korea pada VLM di berbagai domain.

Proyek ini memperkenalkan total 3 benchmark.

KO-VQA: mengevaluasi kemampuan memahami dokumen berbahasa Korea di berbagai domain serta kemampuan penalaran jawaban berbasis dokumen
KO-VDC: mengevaluasi kemampuan memahami materi diagram visual berbahasa Korea serta kemampuan membuat/memahami teks penjelasan berbasis diagram
KO-OCRAG: mengevaluasi kemampuan OCR untuk dokumen berbahasa Korea dengan struktur kompleks serta kemampuan parsing visual context yang muncul dalam dokumen

Evaluasi untuk semua dataset tidak bergantung pada LLM-as-a-Judge, melainkan dilakukan sepenuhnya dalam bentuk pilihan ganda yang objektif.
Berbagai VLM open-source yang dapat dijalankan dalam satu A100 40GB atau 80GB dibandingkan dengan gemini yang bersifat closed-source.

gemini menunjukkan performa yang sangat unggul di semua benchmark.
Di sisi open-source, Qwen3 menunjukkan performa yang menonjol.
Model VARCO-VISION-2.0 dari NCSoft juga menunjukkan performa yang cukup baik.
Kesimpulannya, terlihat bahwa kesenjangan performa bahasa Korea antara VLM closed-source dan VLM open-source masih cukup besar.
Selain itu, gemini juga sempat mengejutkan karena menunjukkan skor yang nyaris sempurna;;

Silakan lihat masing-masing README untuk penjelasan dataset yang lebih rinci.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐, perhatian, dan promosi sangat membantu pembuatan proyek open-source!!
Proyek ini dijalankan dengan dukungan dari markrAI.

Tiga benchmark VLM untuk mengevaluasi kemampuan bahasa Korea dirilis (KO-VQA, KO-VDC, KO-OCRAG)

Seiring meningkatnya minat terhadap VLM belakangan ini, dirilis benchmark yang dapat memeriksa kemampuan bahasa Korea pada VLM di berbagai domain.

Bacaan terkait

Belum ada komentar.