- Dalam benchmark Omni OCR yang menganalisis performa OCR, dilakukan perbandingan termasuk model yang baru dirilis seperti Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, dan mistral-ocr
- Model Qwen 2.5 VL 72B/32B mencatat akurasi tertinggi
- Keduanya menunjukkan performa setara GPT-4o dengan akurasi sekitar 75%
- Qwen 72B mencatat akurasi 0,4% lebih tinggi dibanding 32B, yang pada praktiknya merupakan performa serupa dalam batas margin kesalahan
- Kedua model Qwen melampaui performa mistral-ocr (72,2%)
- Meskipun mistral-ocr adalah model yang dilatih khusus untuk OCR, performanya tetap kalah dari Qwen
- Model Gemma-3 (27B) memiliki akurasi rendah, yakni 42,9%
- Hasil ini agak mengejutkan karena performanya tetap rendah meski berbasis arsitektur Gemini 2.0
Omni OCR Benchmark
- Alat benchmarking untuk membandingkan kemampuan OCR dan ekstraksi data, yang mengevaluasi akurasi ekstraksi teks dan JSON dari model multimodal besar seperti GPT-4o
- Tujuan benchmark ini adalah menerbitkan benchmark komprehensif atas akurasi OCR di berbagai penyedia OCR tradisional dan model bahasa multimodal
- Dataset evaluasi dan metodologinya semuanya tersedia sebagai open source, dan benchmark ini dianjurkan untuk diperluas agar mencakup penyedia tambahan
1 komentar
Opini Hacker News
"Qwen2.5-VL-32b-Instruct -8bit"melalui LM Studio, dan berencana memakainya untuk proyek sampingan OCR