Qwen-2.5-32B kini menjadi model OCR open source terbaik

(github.com/getomni-ai)

8 poin oleh GN⁺ 2025-04-04 | 1 komentar | Bagikan ke WhatsApp

Dalam benchmark Omni OCR yang menganalisis performa OCR, dilakukan perbandingan termasuk model yang baru dirilis seperti Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, dan mistral-ocr
Model Qwen 2.5 VL 72B/32B mencatat akurasi tertinggi
- Keduanya menunjukkan performa setara GPT-4o dengan akurasi sekitar 75%
- Qwen 72B mencatat akurasi 0,4% lebih tinggi dibanding 32B, yang pada praktiknya merupakan performa serupa dalam batas margin kesalahan
Kedua model Qwen melampaui performa mistral-ocr (72,2%)
- Meskipun mistral-ocr adalah model yang dilatih khusus untuk OCR, performanya tetap kalah dari Qwen
Model Gemma-3 (27B) memiliki akurasi rendah, yakni 42,9%
- Hasil ini agak mengejutkan karena performanya tetap rendah meski berbasis arsitektur Gemini 2.0

Omni OCR Benchmark

Alat benchmarking untuk membandingkan kemampuan OCR dan ekstraksi data, yang mengevaluasi akurasi ekstraksi teks dan JSON dari model multimodal besar seperti GPT-4o
Tujuan benchmark ini adalah menerbitkan benchmark komprehensif atas akurasi OCR di berbagai penyedia OCR tradisional dan model bahasa multimodal
Dataset evaluasi dan metodologinya semuanya tersedia sebagai open source, dan benchmark ini dianjurkan untuk diperluas agar mencakup penyedia tambahan

1 komentar

GN⁺ 2025-04-04

Opini Hacker News

32b memiliki output yang lebih ramah bagi manusia, penalaran matematis yang lebih baik, dan fitur penyesuaian kecil yang tampak berguna untuk membantu pemahaman yang lebih detail
Qwen2.5-VL-72b dirilis dua bulan lalu, dan ada komentar antusias tentang pengenalan tulisan tangan
- Model ini adalah rilis menarik yang membantu mengatasi skeptisisme dan kejengkelan terhadap AI
- Catatan rilisnya tersusun rapi, dan postingan blognya juga sangat bagus
Output HTML Qwen terasa menarik
- Dalam format HTML, model ini menyediakan bounding box sehingga umpan balik visual bisa dibangun dengan cepat atau data terstruktur bisa digunakan dengan mudah
- OCR tradisional punya keunggulan besar dibanding LLM dalam hal menyediakan koordinat bounding box
Sampai akurasi mencapai lebih dari 95%, pemeriksaan dan koreksi ganda oleh manusia tetap diperlukan, dan tanpa bounding box hal itu tidak realistis
Sedang mengunduh versi MLX dari "Qwen2.5-VL-32b-Instruct -8bit" melalui LM Studio, dan berencana memakainya untuk proyek sampingan OCR
Penasaran apakah hasil pengukuran biaya dan latensi, selain akurasi, bisa dibagikan juga
Terus terkesan dengan kemampuan OCR Gemini, dan Qwen berkembang sangat cepat
Membandingkan beberapa model untuk menyelesaikan pekerjaan, dan model terbaru Qwen jauh lebih stabil daripada sebelumnya serta lebih mudah disetel halus
Performa OCR OpenAI sudah lama tidak membaik, dan itu terasa aneh sekaligus menjengkelkan
Qwen 2.5 VL 72b melampaui Gemini dalam visi umum, dan bisa dijalankan secara lokal
Sedang bereksperimen dengan API OCR di macOS, dan ingin membandingkannya dengan LLM-LLM ini
Tesseract bisa mencapai akurasi 99% untuk semua hal selain tulisan tangan
Penasaran apakah ada keuntungan menggunakan LLM
Sangat terkesan dengan hasil pengujian Qwen, dan merasa orang-orang meremehkannya
Penasaran bagaimana orang mengatur antarmuka LLM untuk memproses beberapa file dalam satu prompt
Kerja yang luar biasa dari Tyler dan tim

Qwen-2.5-32B kini menjadi model OCR open source terbaik

Omni OCR Benchmark

Bacaan terkait

1 komentar

Opini Hacker News