8 poin oleh GN⁺ 2025-04-04 | 1 komentar | Bagikan ke WhatsApp
  • Dalam benchmark Omni OCR yang menganalisis performa OCR, dilakukan perbandingan termasuk model yang baru dirilis seperti Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, dan mistral-ocr
  • Model Qwen 2.5 VL 72B/32B mencatat akurasi tertinggi
    • Keduanya menunjukkan performa setara GPT-4o dengan akurasi sekitar 75%
    • Qwen 72B mencatat akurasi 0,4% lebih tinggi dibanding 32B, yang pada praktiknya merupakan performa serupa dalam batas margin kesalahan
  • Kedua model Qwen melampaui performa mistral-ocr (72,2%)
    • Meskipun mistral-ocr adalah model yang dilatih khusus untuk OCR, performanya tetap kalah dari Qwen
  • Model Gemma-3 (27B) memiliki akurasi rendah, yakni 42,9%
    • Hasil ini agak mengejutkan karena performanya tetap rendah meski berbasis arsitektur Gemini 2.0

Omni OCR Benchmark

  • Alat benchmarking untuk membandingkan kemampuan OCR dan ekstraksi data, yang mengevaluasi akurasi ekstraksi teks dan JSON dari model multimodal besar seperti GPT-4o
  • Tujuan benchmark ini adalah menerbitkan benchmark komprehensif atas akurasi OCR di berbagai penyedia OCR tradisional dan model bahasa multimodal
  • Dataset evaluasi dan metodologinya semuanya tersedia sebagai open source, dan benchmark ini dianjurkan untuk diperluas agar mencakup penyedia tambahan

1 komentar

 
GN⁺ 2025-04-04
Opini Hacker News
  • 32b memiliki output yang lebih ramah bagi manusia, penalaran matematis yang lebih baik, dan fitur penyesuaian kecil yang tampak berguna untuk membantu pemahaman yang lebih detail
  • Qwen2.5-VL-72b dirilis dua bulan lalu, dan ada komentar antusias tentang pengenalan tulisan tangan
    • Model ini adalah rilis menarik yang membantu mengatasi skeptisisme dan kejengkelan terhadap AI
    • Catatan rilisnya tersusun rapi, dan postingan blognya juga sangat bagus
  • Output HTML Qwen terasa menarik
    • Dalam format HTML, model ini menyediakan bounding box sehingga umpan balik visual bisa dibangun dengan cepat atau data terstruktur bisa digunakan dengan mudah
    • OCR tradisional punya keunggulan besar dibanding LLM dalam hal menyediakan koordinat bounding box
  • Sampai akurasi mencapai lebih dari 95%, pemeriksaan dan koreksi ganda oleh manusia tetap diperlukan, dan tanpa bounding box hal itu tidak realistis
  • Sedang mengunduh versi MLX dari "Qwen2.5-VL-32b-Instruct -8bit" melalui LM Studio, dan berencana memakainya untuk proyek sampingan OCR
  • Penasaran apakah hasil pengukuran biaya dan latensi, selain akurasi, bisa dibagikan juga
  • Terus terkesan dengan kemampuan OCR Gemini, dan Qwen berkembang sangat cepat
  • Membandingkan beberapa model untuk menyelesaikan pekerjaan, dan model terbaru Qwen jauh lebih stabil daripada sebelumnya serta lebih mudah disetel halus
  • Performa OCR OpenAI sudah lama tidak membaik, dan itu terasa aneh sekaligus menjengkelkan
  • Qwen 2.5 VL 72b melampaui Gemini dalam visi umum, dan bisa dijalankan secara lokal
  • Sedang bereksperimen dengan API OCR di macOS, dan ingin membandingkannya dengan LLM-LLM ini
  • Tesseract bisa mencapai akurasi 99% untuk semua hal selain tulisan tangan
  • Penasaran apakah ada keuntungan menggunakan LLM
  • Sangat terkesan dengan hasil pengujian Qwen, dan merasa orang-orang meremehkannya
  • Penasaran bagaimana orang mengatur antarmuka LLM untuk memproses beberapa file dalam satu prompt
  • Kerja yang luar biasa dari Tyler dan tim