2 poin oleh kyujin 3 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

๐Ÿ”ฅ Benchmark VLM dokumen panjang berbahasa Korea, KOLongDoc, telah kami rilis!

Belakangan ini AI multimodal seperti ChatGPT, Claude, dan Gemini mulai digunakan juga untuk tugas publik dan administrasi, tetapi benchmark untuk menilai "seberapa baik model memahami dokumen Korea yang panjang?" nyaris tidak ada.

Benchmark VLM berbahasa Korea yang sudah ada selama ini berfokus pada OCR, VQA, pemahaman grafik, pemahaman gambar, dan sebagainya, tetapi

โŒ dokumen beresolusi tinggi yang mencapai puluhan halaman
โŒ penalaran multi-hop yang menghubungkan informasi lintas beberapa halaman
โŒ pemahaman dokumen long-context

masih memiliki keterbatasan untuk dievaluasi secara menyeluruh.

Karena itu, kami membuat benchmark KOLongDoc ๐Ÿ“„ dan merilisnya sebagai open source!

โœ… berbasis dokumen lembaga publik Korea
โœ… QA multi-page / multi-hop
โœ… evaluasi pemahaman long document beresolusi tinggi
โœ… menyediakan total 200 butir evaluasi

KOLongDoc adalah benchmark untuk mengevaluasi seberapa akurat VLM dari dalam dan luar negeri dapat memahami serta menalar dokumen publik Korea yang nyata.

Jika Anda ingin mengetahui detail dan cara penggunaannya, silakan kunjungi huggingface dan github!

๐Ÿค— Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc

๐Ÿ“ Pengantar di Github:
https://github.com/Marker-Inc-Korea/KOLongDoc

*Kami menyambut umpan balik dan contoh penggunaan benchmark ini!

Belum ada komentar.

Belum ada komentar.