13 poin oleh xguru 2021-03-12 | 1 komentar | Bagikan ke WhatsApp
  • Open source untuk mengekstrak data tabel dari PDF atau gambar lalu mengubahnya menjadi CSV

  • Kode Python + OpenCV + Tesseract

  • Gambar di dalam PDF dapat diekstrak satu per satu menjadi file gambar menggunakan Poppler + ImageMagick lalu diproses sekaligus (skrip batch)

1 komentar

 
xguru 2021-03-12

Kalau tabelnya hanya berisi angka, sepertinya kode di bawah ini lebih praktis karena bisa memilih area sampai tingkat region lalu mengekstraknya.

image2csv - open source untuk mengonversi gambar tabel angka menjadi CSV

https://github.com/artperrin/image2csv

  • Kode Python + OpenCV + Tesseract

  • Pengenalan grid (tabel) otomatis

  • Saat pengenalan manual, area dipilih dengan mouse di Windows