PaddleOCR-VL - OCR multibahasa model vision-language ultra-ringkas 0.9B yang dirilis Baidu

(huggingface.co)

43 poin oleh xguru 2025-10-21 | 6 komentar | Bagikan ke WhatsApp

Model vision-language (VLM) ultra-ringkas yang dioptimalkan untuk parsing dokumen, mendukung 109 bahasa termasuk bahasa Korea, serta mampu mengenali elemen kompleks seperti rumus, tabel, grafik, dan tulisan tangan dengan akurat
Model inti PaddleOCR-VL-0.9B menggabungkan encoder visual resolusi dinamis berbasis NaViT dan model bahasa ERNIE-4.5-0.3B untuk mencapai pengenalan berpresisi tinggi sekaligus kecepatan inferensi yang cepat
Dengan arsitektur VLM yang kecil namun kuat, model ini mempertahankan efisiensi komputasi sambil menghadirkan performa pengenalan setara model besar yang sudah ada
Mencatat SOTA (performa terbaik) pada OmniDocBench dan benchmark lain, melampaui model berbasis pipeline yang ada
Mendukung Hangul, Tionghoa, Inggris, Jepang, serta berbagai sistem tulisan lain seperti Rusia, Arab, Hindi, dan Thai, sehingga dapat dimanfaatkan untuk otomatisasi pemrosesan dokumen di seluruh dunia
Berkat struktur yang ringan, penggunaan sumber daya GPU rendah, dan dapat dengan mudah di-deploy serta diintegrasikan melalui Docker, CLI, dan Python API
Bahkan melampaui model multimodal kelas 72B pada beberapa aspek, menjadikannya solusi pemrosesan dokumen multibahasa yang siap langsung diterapkan di lingkungan nyata

6 komentar

helio 2025-10-21

Kalau PaddleOCR, sepertinya ada juga yang memakainya secara komersial, kan??

tsboard 2025-10-21

Wow, gila sih, parah banget dengan ini dokumen yang punya tabel kompleks juga sepertinya bisa langsung dikenali ya

xguru 2025-10-21

Katanya, performanya jauh lebih unggul dibandingkan beberapa mesin OCR komersial.

yeorinhieut 2025-10-21

Kali ini deepseek ocr juga tampaknya sudah dirilis, jadi saya penasaran dengan perbandingan performanya.

yangeok 2025-10-21

Kalau multibahasa bisa berjalan sekaligus, itu yang terbaik,,

forgotdonkey456 2025-10-21

Komentar yang kurang lebih memperkirakan bahwa jika perusahaan swasta Tiongkok bisa merilis model sekelas ini, NSA mungkin memiliki model OCR yang lebih unggul (atau gila) untuk pengumpulan intelijen.

PaddleOCR-VL - OCR multibahasa model vision-language ultra-ringkas 0.9B yang dirilis Baidu

Bacaan terkait

6 komentar