10 poin oleh calmlake79 2026-02-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Mesin open-source berbasis Rust untuk ekstraksi tabel PDF
  • Alat Python yang sudah ada (Camelot, Tabula, pdfplumber) memerlukan dependensi runtime yang berat seperti OpenCV, Ghostscript, dan Java, sehingga memiliki keterbatasan memori yang besar di lingkungan serverless
  • TREX berjalan sebagai biner tunggal tanpa dependensi eksternal, dan dengan memori ~30MB dapat dijalankan di Cloud Run/Lambda tanpa OOM
  • Menyertakan dua strategi parsing: Lattice (berbasis garis kisi) / Stream (inferensi koordinat), dan dapat otomatis memilih strategi optimal per halaman dengan DL Router
  • DL Router berbasis deep learning menganalisis fitur halaman untuk secara otomatis memilih strategi parsing optimal (Lattice/Stream/Blend). Dengan mengumpulkan event kegagalan ekstraksi selama operasi dan melatih ulang model ONNX, akurasi dapat terus ditingkatkan
  • Dapat langsung digunakan di Node.js dengan npm i @dreamyoungs/trex (wrapper CLI) atau npm i @dreamyoungs/trex-node (binding native NAPI-RS)
  • Juga mendukung Docker REST API dan binding Python, serta menggunakan lisensi ganda MIT / Apache-2.0

Belum ada komentar.

Belum ada komentar.