43 poin oleh xguru 2025-10-21 | 6 komentar | Bagikan ke WhatsApp
  • Model vision-language (VLM) ultra-ringkas yang dioptimalkan untuk parsing dokumen, mendukung 109 bahasa termasuk bahasa Korea, serta mampu mengenali elemen kompleks seperti rumus, tabel, grafik, dan tulisan tangan dengan akurat
  • Model inti PaddleOCR-VL-0.9B menggabungkan encoder visual resolusi dinamis berbasis NaViT dan model bahasa ERNIE-4.5-0.3B untuk mencapai pengenalan berpresisi tinggi sekaligus kecepatan inferensi yang cepat
  • Dengan arsitektur VLM yang kecil namun kuat, model ini mempertahankan efisiensi komputasi sambil menghadirkan performa pengenalan setara model besar yang sudah ada
  • Mencatat SOTA (performa terbaik) pada OmniDocBench dan benchmark lain, melampaui model berbasis pipeline yang ada
  • Mendukung Hangul, Tionghoa, Inggris, Jepang, serta berbagai sistem tulisan lain seperti Rusia, Arab, Hindi, dan Thai, sehingga dapat dimanfaatkan untuk otomatisasi pemrosesan dokumen di seluruh dunia
  • Berkat struktur yang ringan, penggunaan sumber daya GPU rendah, dan dapat dengan mudah di-deploy serta diintegrasikan melalui Docker, CLI, dan Python API
  • Bahkan melampaui model multimodal kelas 72B pada beberapa aspek, menjadikannya solusi pemrosesan dokumen multibahasa yang siap langsung diterapkan di lingkungan nyata

6 komentar

 
helio 2025-10-21

Kalau PaddleOCR, sepertinya ada juga yang memakainya secara komersial, kan??

 
tsboard 2025-10-21

Wow, gila sih, parah banget dengan ini dokumen yang punya tabel kompleks juga sepertinya bisa langsung dikenali ya

 
xguru 2025-10-21

Katanya, performanya jauh lebih unggul dibandingkan beberapa mesin OCR komersial.

 
yeorinhieut 2025-10-21

Kali ini deepseek ocr juga tampaknya sudah dirilis, jadi saya penasaran dengan perbandingan performanya.

 
yangeok 2025-10-21

Kalau multibahasa bisa berjalan sekaligus, itu yang terbaik,,

 
forgotdonkey456 2025-10-21

Komentar yang kurang lebih memperkirakan bahwa jika perusahaan swasta Tiongkok bisa merilis model sekelas ini, NSA mungkin memiliki model OCR yang lebih unggul (atau gila) untuk pengumpulan intelijen.