- Mesin open-source berbasis Rust untuk ekstraksi tabel PDF
- Alat Python yang sudah ada (Camelot, Tabula, pdfplumber) memerlukan dependensi runtime yang berat seperti OpenCV, Ghostscript, dan Java, sehingga memiliki keterbatasan memori yang besar di lingkungan serverless
- TREX berjalan sebagai biner tunggal tanpa dependensi eksternal, dan dengan memori ~30MB dapat dijalankan di Cloud Run/Lambda tanpa OOM
- Menyertakan dua strategi parsing: Lattice (berbasis garis kisi) / Stream (inferensi koordinat), dan dapat otomatis memilih strategi optimal per halaman dengan DL Router
- DL Router berbasis deep learning menganalisis fitur halaman untuk secara otomatis memilih strategi parsing optimal (Lattice/Stream/Blend). Dengan mengumpulkan event kegagalan ekstraksi selama operasi dan melatih ulang model ONNX, akurasi dapat terus ditingkatkan
- Dapat langsung digunakan di Node.js dengan
npm i @dreamyoungs/trex (wrapper CLI) atau npm i @dreamyoungs/trex-node (binding native NAPI-RS)
- Juga mendukung Docker REST API dan binding Python, serta menggunakan lisensi ganda MIT / Apache-2.0
Belum ada komentar.