Koreksi distorsi halaman (Page Dewarping)
- Pendekatan untuk meratakan gambar halaman yang melengkung sebagai masalah optimisasi
Latar belakang
- Metode koreksi distorsi yang sudah ada seperti pustaka Leptonica atau metode Coordinate Transform Model (CTM) menggunakan pendekatan dekomposisi masalah secara hierarkis
- Memisahkan teks per baris
- Mencari warping atau transformasi koordinat agar baris-baris menjadi paralel dan horizontal
- Terinspirasi dari pendekatan berbasis model silinder 3D pada CTM, dibuat model parametrik sendiri yang menggunakan parameter-parameter penentu bentuk halaman
- Vektor rotasi/pergeseran 3D, kemiringan kelengkungan halaman, offset garis horizontal, dll.
- Didefinisikan sebagai masalah optimisasi
- Mencari keypoint di sepanjang area teks horizontal pada foto asli
- Mulai dari estimasi awal, lalu mengoptimalkan parameter model untuk meminimalkan error reproyeksi keypoint
Prosedur
- Ekstraksi batas halaman
- Deteksi kontur teks
- Menggunakan binerisasi, operasi morfologi, dan analisis komponen terhubung
- Juga dioptimalkan agar dapat mendeteksi tabel teks vertikal
- Mengelompokkan kontur teks menjadi area horizontal
- Sampling keypoint pada area horizontal
- Estimasi parameter model awal
- Meminimalkan error reproyeksi melalui optimisasi
- Menggunakan solver Powell dari
scipy.optimize.minimize
- Menghabiskan sebagian besar waktu eksekusi
- Melakukan transformasi koordinat dengan model optimal, lalu remapping dan binerisasi gambar
Hasil
- Bekerja dengan baik pada berbagai contoh gambar
- Karena jumlah parameter model banyak, optimisasinya memerlukan waktu
- Distorsi arah horizontal tidak dipertimbangkan
Penutup
- Workflow yang khas: membangun pengetahuan dasar lalu memformalkannya sebagai masalah optimisasi
- Pendekatannya mirip dengan Deformable Part Model dan Active Appearance Model
- Juga memperoleh wawasan praktis dalam memanfaatkan alat seperti Emacs dan Pylint
- Tidak ada rencana pengembangan lebih lanjut, tetapi ini layak dijadikan proyek rujukan saat mengajarkan computer vision
Opini GN⁺
- Untuk kegunaan nyata, tampaknya distorsi arah horizontal juga perlu dikoreksi. Untuk itu mungkin dibutuhkan model yang lebih canggih seperti CTM.
- Peningkatan kecepatan optimisasi tampak penting. Mengurangi jumlah parameter atau menggunakan teknik optimisasi yang lebih cepat kemungkinan akan membantu.
- Akan menarik jika dibandingkan dengan metode berbasis deep learning. Deep learning mungkin bisa sekaligus menyelesaikan ekstraksi fitur dan pemodelan.
- Agar bisa dimanfaatkan pada pekerjaan digitalisasi dokumen di lapangan industri, ketahanan terhadap dokumen dengan beragam layout tampaknya masih perlu ditingkatkan.
- Bagus karena dirilis sebagai open source, tetapi untuk penggunaan nyata tampaknya akan lebih baik didistribusikan sebagai program mandiri daripada skrip Python.
1 komentar
Opini Hacker News
Ringkasan:
de-curlingpada halaman pindaian yang tidak bisa dibuka lebar merupakan tantangannyade-wrinklingstrukde-warpingnon-kontak dimungkinkan dengan tomografi sinar-X