Tiga benchmark VLM untuk mengevaluasi kemampuan bahasa Korea dirilis (KO-VQA, KO-VDC, KO-OCRAG)
(github.com/Marker-Inc-Korea)Seiring meningkatnya minat terhadap VLM belakangan ini, dirilis benchmark yang dapat memeriksa kemampuan bahasa Korea pada VLM di berbagai domain.
Proyek ini memperkenalkan total 3 benchmark.
- KO-VQA: mengevaluasi kemampuan memahami dokumen berbahasa Korea di berbagai domain serta kemampuan penalaran jawaban berbasis dokumen
- KO-VDC: mengevaluasi kemampuan memahami materi diagram visual berbahasa Korea serta kemampuan membuat/memahami teks penjelasan berbasis diagram
- KO-OCRAG: mengevaluasi kemampuan OCR untuk dokumen berbahasa Korea dengan struktur kompleks serta kemampuan parsing visual context yang muncul dalam dokumen
Evaluasi untuk semua dataset tidak bergantung pada LLM-as-a-Judge, melainkan dilakukan sepenuhnya dalam bentuk pilihan ganda yang objektif.
Berbagai VLM open-source yang dapat dijalankan dalam satu A100 40GB atau 80GB dibandingkan dengan gemini yang bersifat closed-source.
- gemini menunjukkan performa yang sangat unggul di semua benchmark.
- Di sisi open-source, Qwen3 menunjukkan performa yang menonjol.
- Model VARCO-VISION-2.0 dari NCSoft juga menunjukkan performa yang cukup baik.
- Kesimpulannya, terlihat bahwa kesenjangan performa bahasa Korea antara VLM closed-source dan VLM open-source masih cukup besar.
- Selain itu, gemini juga sempat mengejutkan karena menunjukkan skor yang nyaris sempurna;;
Silakan lihat masing-masing README untuk penjelasan dataset yang lebih rinci.
KO-VQA README
KO-VDC README
KO-OCRAG README
⭐⭐Github star⭐⭐, perhatian, dan promosi sangat membantu pembuatan proyek open-source!!
Proyek ini dijalankan dengan dukungan dari markrAI.
Belum ada komentar.