-
Open source untuk mengekstrak data tabel dari PDF atau gambar lalu mengubahnya menjadi CSV
-
Kode Python + OpenCV + Tesseract
-
Gambar di dalam PDF dapat diekstrak satu per satu menjadi file gambar menggunakan Poppler + ImageMagick lalu diproses sekaligus (skrip batch)
1 komentar
Kalau tabelnya hanya berisi angka, sepertinya kode di bawah ini lebih praktis karena bisa memilih area sampai tingkat region lalu mengekstraknya.
image2csv - open source untuk mengonversi gambar tabel angka menjadi CSV
https://github.com/artperrin/image2csv
Kode Python + OpenCV + Tesseract
Pengenalan grid (tabel) otomatis
Saat pengenalan manual, area dipilih dengan mouse di Windows