2 poin oleh GN⁺ 2024-05-14 | 1 komentar | Bagikan ke WhatsApp

Koreksi distorsi halaman (Page Dewarping)

  • Pendekatan untuk meratakan gambar halaman yang melengkung sebagai masalah optimisasi

Latar belakang

  • Metode koreksi distorsi yang sudah ada seperti pustaka Leptonica atau metode Coordinate Transform Model (CTM) menggunakan pendekatan dekomposisi masalah secara hierarkis
    1. Memisahkan teks per baris
    2. Mencari warping atau transformasi koordinat agar baris-baris menjadi paralel dan horizontal
  • Terinspirasi dari pendekatan berbasis model silinder 3D pada CTM, dibuat model parametrik sendiri yang menggunakan parameter-parameter penentu bentuk halaman
    • Vektor rotasi/pergeseran 3D, kemiringan kelengkungan halaman, offset garis horizontal, dll.
  • Didefinisikan sebagai masalah optimisasi
    • Mencari keypoint di sepanjang area teks horizontal pada foto asli
    • Mulai dari estimasi awal, lalu mengoptimalkan parameter model untuk meminimalkan error reproyeksi keypoint

Prosedur

  1. Ekstraksi batas halaman
  2. Deteksi kontur teks
  • Menggunakan binerisasi, operasi morfologi, dan analisis komponen terhubung
  • Juga dioptimalkan agar dapat mendeteksi tabel teks vertikal
  1. Mengelompokkan kontur teks menjadi area horizontal
  2. Sampling keypoint pada area horizontal
  3. Estimasi parameter model awal
  4. Meminimalkan error reproyeksi melalui optimisasi
  • Menggunakan solver Powell dari scipy.optimize.minimize
  • Menghabiskan sebagian besar waktu eksekusi
  1. Melakukan transformasi koordinat dengan model optimal, lalu remapping dan binerisasi gambar

Hasil

  • Bekerja dengan baik pada berbagai contoh gambar
  • Karena jumlah parameter model banyak, optimisasinya memerlukan waktu
  • Distorsi arah horizontal tidak dipertimbangkan

Penutup

  • Workflow yang khas: membangun pengetahuan dasar lalu memformalkannya sebagai masalah optimisasi
  • Pendekatannya mirip dengan Deformable Part Model dan Active Appearance Model
  • Juga memperoleh wawasan praktis dalam memanfaatkan alat seperti Emacs dan Pylint
  • Tidak ada rencana pengembangan lebih lanjut, tetapi ini layak dijadikan proyek rujukan saat mengajarkan computer vision

Opini GN⁺

  • Untuk kegunaan nyata, tampaknya distorsi arah horizontal juga perlu dikoreksi. Untuk itu mungkin dibutuhkan model yang lebih canggih seperti CTM.
  • Peningkatan kecepatan optimisasi tampak penting. Mengurangi jumlah parameter atau menggunakan teknik optimisasi yang lebih cepat kemungkinan akan membantu.
  • Akan menarik jika dibandingkan dengan metode berbasis deep learning. Deep learning mungkin bisa sekaligus menyelesaikan ekstraksi fitur dan pemodelan.
  • Agar bisa dimanfaatkan pada pekerjaan digitalisasi dokumen di lapangan industri, ketahanan terhadap dokumen dengan beragam layout tampaknya masih perlu ditingkatkan.
  • Bagus karena dirilis sebagai open source, tetapi untuk penggunaan nyata tampaknya akan lebih baik didistribusikan sebagai program mandiri daripada skrip Python.

1 komentar

 
GN⁺ 2024-05-14
Opini Hacker News

Ringkasan:

  • Saat melakukan binarisasi gambar, perlu berhati-hati dalam menerapkan nilai ambang yang tinggi
    • Ini bekerja baik untuk teks biasa, tetapi ilustrasi atau catatan kaki bisa rusak hingga nyaris tak terbaca
    • Jika satu-satunya sumber adalah hasil pindaian Google Books, Anda bisa saja kurang beruntung
  • Meski sudah tahun 2024, fitur ini masih belum tertanam di aplikasi pemindai dokumen
  • Mantan CEO Adobe, John Warnock, berupaya melestarikan buku-buku sejarah langka
    • de-curling pada halaman pindaian yang tidak bisa dibuka lebar merupakan tantangannya
    • Proyek terkait: Rare Book Room
  • Artikel ini bisa dijadikan rujukan di tempat kerja sebagai contoh cara mendokumentasikan proyek teknis dan pengambilan keputusan secara efektif
  • Saat kuliah, saya pernah membuat aplikasi pemindai untuk catatan berkode warna lalu menemui masalah distorsi warna
    • Warna di bagian atas dan bawah halaman berbeda sehingga sulit membedakan pena biru dan hijau
  • Hasilnya terlihat cukup baik, tetapi model warp-nya agak terlalu global
    • Model itu tidak mampu menangkap seluruh distorsi kompleks pada kertas, sehingga distorsi sisa masih terlihat pada hasil akhir
  • Ini artikel menarik yang saya sayangkan tidak saya lihat pada 2016
    • Seluruh proses dari pendefinisian masalah, penerapan teknik yang cerdas, hingga menghasilkan solusi yang bekerja dijelaskan dengan baik
    • Saya mungkin tidak akan pernah memakainya langsung, tetapi ini contoh yang sangat bagus tentang proses pemecahan masalah
  • Terjadi kesalahan instalasi, saya sudah membuat issue di GitHub
  • Akan bagus juga kalau dicoba untuk de-wrinkling struk
  • Jika hanya membutuhkan OCR, langkah ini mungkin bisa dilewati
  • Google sudah menyelesaikan masalah ini sejak 10 tahun lalu
  • Jika itu buku atau dokumen lama yang bernilai, de-warping non-kontak dimungkinkan dengan tomografi sinar-X