8 poin oleh kyujin 2026-02-02 | Belum ada komentar. | Bagikan ke WhatsApp

Seiring meningkatnya minat terhadap VLM belakangan ini, dirilis benchmark yang dapat memeriksa kemampuan bahasa Korea pada VLM di berbagai domain.

Proyek ini memperkenalkan total 3 benchmark.

  • KO-VQA: mengevaluasi kemampuan memahami dokumen berbahasa Korea di berbagai domain serta kemampuan penalaran jawaban berbasis dokumen
  • KO-VDC: mengevaluasi kemampuan memahami materi diagram visual berbahasa Korea serta kemampuan membuat/memahami teks penjelasan berbasis diagram
  • KO-OCRAG: mengevaluasi kemampuan OCR untuk dokumen berbahasa Korea dengan struktur kompleks serta kemampuan parsing visual context yang muncul dalam dokumen

Evaluasi untuk semua dataset tidak bergantung pada LLM-as-a-Judge, melainkan dilakukan sepenuhnya dalam bentuk pilihan ganda yang objektif.
Berbagai VLM open-source yang dapat dijalankan dalam satu A100 40GB atau 80GB dibandingkan dengan gemini yang bersifat closed-source.

  • gemini menunjukkan performa yang sangat unggul di semua benchmark.
  • Di sisi open-source, Qwen3 menunjukkan performa yang menonjol.
  • Model VARCO-VISION-2.0 dari NCSoft juga menunjukkan performa yang cukup baik.
  • Kesimpulannya, terlihat bahwa kesenjangan performa bahasa Korea antara VLM closed-source dan VLM open-source masih cukup besar.
  • Selain itu, gemini juga sempat mengejutkan karena menunjukkan skor yang nyaris sempurna;;

Silakan lihat masing-masing README untuk penjelasan dataset yang lebih rinci.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐, perhatian, dan promosi sangat membantu pembuatan proyek open-source!!
Proyek ini dijalankan dengan dukungan dari markrAI.

Belum ada komentar.

Belum ada komentar.