- Model vision-language (VLM) ultra-ringkas yang dioptimalkan untuk parsing dokumen, mendukung 109 bahasa termasuk bahasa Korea, serta mampu mengenali elemen kompleks seperti rumus, tabel, grafik, dan tulisan tangan dengan akurat
- Model inti PaddleOCR-VL-0.9B menggabungkan encoder visual resolusi dinamis berbasis NaViT dan model bahasa ERNIE-4.5-0.3B untuk mencapai pengenalan berpresisi tinggi sekaligus kecepatan inferensi yang cepat
- Dengan arsitektur VLM yang kecil namun kuat, model ini mempertahankan efisiensi komputasi sambil menghadirkan performa pengenalan setara model besar yang sudah ada
- Mencatat SOTA (performa terbaik) pada OmniDocBench dan benchmark lain, melampaui model berbasis pipeline yang ada
- Mendukung Hangul, Tionghoa, Inggris, Jepang, serta berbagai sistem tulisan lain seperti Rusia, Arab, Hindi, dan Thai, sehingga dapat dimanfaatkan untuk otomatisasi pemrosesan dokumen di seluruh dunia
- Berkat struktur yang ringan, penggunaan sumber daya GPU rendah, dan dapat dengan mudah di-deploy serta diintegrasikan melalui Docker, CLI, dan Python API
- Bahkan melampaui model multimodal kelas 72B pada beberapa aspek, menjadikannya solusi pemrosesan dokumen multibahasa yang siap langsung diterapkan di lingkungan nyata
6 komentar
Kalau PaddleOCR, sepertinya ada juga yang memakainya secara komersial, kan??
Wow, gila sih, parah banget dengan ini dokumen yang punya tabel kompleks juga sepertinya bisa langsung dikenali ya
Katanya, performanya jauh lebih unggul dibandingkan beberapa mesin OCR komersial.
Kali ini deepseek ocr juga tampaknya sudah dirilis, jadi saya penasaran dengan perbandingan performanya.
Kalau multibahasa bisa berjalan sekaligus, itu yang terbaik,,
Komentar yang kurang lebih memperkirakan bahwa jika perusahaan swasta Tiongkok bisa merilis model sekelas ini, NSA mungkin memiliki model OCR yang lebih unggul (atau gila) untuk pengumpulan intelijen.