Seberapa baik VLM membaca dokumen lembaga publik Korea? Benchmark KOLongDoc dirilis

(github.com/Marker-Inc-Korea)

5 poin oleh kyujin 2026-06-04 | 1 komentar | Bagikan ke WhatsApp

🔥 Benchmark VLM dokumen panjang berbahasa Korea, KOLongDoc, telah kami rilis!

Belakangan ini AI multimodal seperti ChatGPT, Claude, dan Gemini mulai digunakan juga untuk tugas publik dan administrasi, tetapi benchmark untuk menilai "seberapa baik model memahami dokumen Korea yang panjang?" nyaris tidak ada.

Benchmark VLM berbahasa Korea yang sudah ada selama ini berfokus pada OCR, VQA, pemahaman grafik, pemahaman gambar, dan sebagainya, tetapi

❌ dokumen beresolusi tinggi yang mencapai puluhan halaman
❌ penalaran multi-hop yang menghubungkan informasi lintas beberapa halaman
❌ pemahaman dokumen long-context

masih memiliki keterbatasan untuk dievaluasi secara menyeluruh.

Karena itu, kami membuat benchmark KOLongDoc 📄 dan merilisnya sebagai open source!

✅ berbasis dokumen lembaga publik Korea
✅ QA multi-page / multi-hop
✅ evaluasi pemahaman long document beresolusi tinggi
✅ menyediakan total 200 butir evaluasi

KOLongDoc adalah benchmark untuk mengevaluasi seberapa akurat VLM dari dalam dan luar negeri dapat memahami serta menalar dokumen publik Korea yang nyata.

Jika Anda ingin mengetahui detail dan cara penggunaannya, silakan kunjungi huggingface dan github!

🤗 Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc

📝 Pengantar di Github:
https://github.com/Marker-Inc-Korea/KOLongDoc

*Kami menyambut umpan balik dan contoh penggunaan benchmark ini!

1 komentar

cosine20 2026-06-05

Terlalu banyak emoji di README jadi terasa ramai... tapi sepertinya memang itu tren belakangan ini.

Seberapa baik VLM membaca dokumen lembaga publik Korea? Benchmark KOLongDoc dirilis

Bacaan terkait

1 komentar