TREX - Mesin Ekstraksi Tabel PDF yang Dibuat dengan Rust (Akurasi Ditingkatkan dengan Deep Learning)

calmlake79 · 2026-02-28T23:52:42+09:00

Mesin open-source berbasis Rust untuk ekstraksi tabel PDF Alat Python yang sudah ada (Camelot, Tabula, pdfplumber) memerlukan dependensi runtime yang berat seperti OpenCV, Ghostscript, dan Java, sehingga memiliki keterbatasan memori yang besar di lingkungan serverless TREX berjalan sebagai biner tunggal tanpa dependensi eksternal, dan dengan memori ~30MB dapat dijalankan di Cloud Run/Lambda tanpa OOM Menyertakan dua strategi parsing: Lattice (berbasis garis kisi) / Stream (inferensi koordinat), dan dapat otomatis memilih strategi optimal per halaman dengan DL Router DL Router berbasis deep learning menganalisis fitur halaman untuk secara otomatis memilih strategi parsing optimal (Lattice/Stream/Blend). Dengan mengumpulkan event kegagalan ekstraksi selama operasi dan melatih ulang model ONNX, akurasi dapat terus ditingkatkan Dapat langsung digunakan di Node.js dengan npm i @dreamyoungs/trex (wrapper CLI) atau npm i @dreamyoungs/trex-node (binding native NAPI-RS) Juga mendukung Docker REST API dan binding Python, serta menggunakan lisensi ganda MIT / Apache-2.0

(github.com/dreamyoungs)

10 poin oleh calmlake79 2026-02-28 | Belum ada komentar. | Bagikan ke WhatsApp

Mesin open-source berbasis Rust untuk ekstraksi tabel PDF
Alat Python yang sudah ada (Camelot, Tabula, pdfplumber) memerlukan dependensi runtime yang berat seperti OpenCV, Ghostscript, dan Java, sehingga memiliki keterbatasan memori yang besar di lingkungan serverless
TREX berjalan sebagai biner tunggal tanpa dependensi eksternal, dan dengan memori ~30MB dapat dijalankan di Cloud Run/Lambda tanpa OOM
Menyertakan dua strategi parsing: Lattice (berbasis garis kisi) / Stream (inferensi koordinat), dan dapat otomatis memilih strategi optimal per halaman dengan DL Router
DL Router berbasis deep learning menganalisis fitur halaman untuk secara otomatis memilih strategi parsing optimal (Lattice/Stream/Blend). Dengan mengumpulkan event kegagalan ekstraksi selama operasi dan melatih ulang model ONNX, akurasi dapat terus ditingkatkan
Dapat langsung digunakan di Node.js dengan npm i @dreamyoungs/trex (wrapper CLI) atau npm i @dreamyoungs/trex-node (binding native NAPI-RS)
Juga mendukung Docker REST API dan binding Python, serta menggunakan lisensi ganda MIT / Apache-2.0

TREX - Mesin Ekstraksi Tabel PDF yang Dibuat dengan Rust (Akurasi Ditingkatkan dengan Deep Learning)

Bacaan terkait

Belum ada komentar.