Seberapa baik VLM membaca dokumen lembaga publik Korea? Benchmark KOLongDoc dirilis
(github.com/Marker-Inc-Korea)๐ฅ Benchmark VLM dokumen panjang berbahasa Korea, KOLongDoc, telah kami rilis!
Belakangan ini AI multimodal seperti ChatGPT, Claude, dan Gemini mulai digunakan juga untuk tugas publik dan administrasi, tetapi benchmark untuk menilai "seberapa baik model memahami dokumen Korea yang panjang?" nyaris tidak ada.
Benchmark VLM berbahasa Korea yang sudah ada selama ini berfokus pada OCR, VQA, pemahaman grafik, pemahaman gambar, dan sebagainya, tetapi
โ dokumen beresolusi tinggi yang mencapai puluhan halaman
โ penalaran multi-hop yang menghubungkan informasi lintas beberapa halaman
โ pemahaman dokumen long-context
masih memiliki keterbatasan untuk dievaluasi secara menyeluruh.
Karena itu, kami membuat benchmark KOLongDoc ๐ dan merilisnya sebagai open source!
โ
berbasis dokumen lembaga publik Korea
โ
QA multi-page / multi-hop
โ
evaluasi pemahaman long document beresolusi tinggi
โ
menyediakan total 200 butir evaluasi
KOLongDoc adalah benchmark untuk mengevaluasi seberapa akurat VLM dari dalam dan luar negeri dapat memahami serta menalar dokumen publik Korea yang nyata.
Jika Anda ingin mengetahui detail dan cara penggunaannya, silakan kunjungi huggingface dan github!
๐ค Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
๐ Pengantar di Github:
https://github.com/Marker-Inc-Korea/KOLongDoc
*Kami menyambut umpan balik dan contoh penggunaan benchmark ini!
Belum ada komentar.