3 poin oleh GN⁺ 2025-03-20 | 1 komentar | Bagikan ke WhatsApp

Keterbatasan OCR (pengenalan karakter optik)

  • File PDF menyimpan data penting seperti riset ilmiah dan catatan pemerintah, tetapi karena formatnya tetap, file ini sulit dibaca dan dianalisis oleh mesin
  • PDF adalah format yang dibuat untuk tata letak cetak, sehingga tidak cocok untuk analisis digital
  • Banyak PDF memuat gambar dari informasi, sehingga diperlukan perangkat lunak OCR untuk mengubahnya menjadi data
  • Untuk dokumen lama atau dokumen tulisan tangan, kinerja OCR menjadi semakin buruk

Masalah data tidak terstruktur

  • Sekitar 80~90% data organisasi di seluruh dunia disimpan sebagai data tidak terstruktur, dan banyak yang terkandung dalam PDF
  • Ekstraksi data sangat sulit terutama pada tata letak dua kolom, tabel, grafik, dan hasil pindaian berkualitas gambar rendah
  • Ini menjadi masalah besar terutama dalam riset ilmiah, pelestarian dokumen sejarah, layanan pelanggan, dan memastikan aksesibilitas literatur teknis dalam sistem AI

Dampak menurut bidang

  • Berdampak pada operasional lembaga publik seperti arsip pemerintah, pengadilan, kepolisian, dan layanan sosial
  • Di industri yang bergantung pada informasi seperti asuransi dan perbankan, banyak waktu dan sumber daya dihabiskan untuk mengonversi data PDF

Sejarah teknologi OCR

  • Pada 1970-an, Ray Kurzweil mengembangkan sistem OCR komersial berbasis algoritma pencocokan pola
  • Kurzweil Reading Machine menyediakan fungsi pengenalan karakter bagi penyandang tunanetra
  • Sistem OCR tradisional bekerja dengan mengenali pola terang-gelap lalu mengubahnya menjadi karakter
  • Kinerjanya menurun pada font yang kompleks, tata letak multi-kolom, tabel, dan sejenisnya
  • OCR tradisional memiliki keterbatasan, tetapi karena kesalahannya dapat diprediksi, perbaikannya relatif mudah

Munculnya OCR berbasis AI

  • LLM multimodal (large language model) melakukan ekstraksi data dengan menggabungkan gambar dan teks
  • Model dari OpenAI, Google, dan Meta dapat mengenali elemen visual dokumen dan konteks teks secara bersamaan
  • OCR tradisional memakai pencocokan pola pada tingkat karakter, sedangkan AI memproses dokumen dengan memahami tata letak dan konteksnya
  • Textract milik Amazon menggunakan pendekatan OCR tradisional, sementara LLM dapat menganalisis dokumen dalam konteks yang lebih luas
  • Pendekatan ini lebih baik dalam menangani tata letak kompleks, tabel, caption, dan sebagainya

Upaya OCR baru berbasis LLM

  • Perusahaan AI asal Prancis, Mistral, meluncurkan Mistral OCR, API pemrosesan dokumen berbasis LLM
  • Tujuannya adalah mengekstrak teks dan gambar dari dokumen dengan tata letak yang kompleks
  • Muncul masalah performa: gagal menangani tabel pada dokumen lama dan terjadi kesalahan angka
  • Masalah juga muncul dalam pengenalan tulisan tangan → AI menghasilkan isi secara arbitrer (halusinasi)
  • Gemini 2.0 milik Google saat ini menunjukkan performa terbaik → kesalahan lebih sedikit bahkan pada dokumen kompleks

Masalah OCR berbasis LLM

  • Karena LLM adalah model berbasis probabilitas, kemungkinan terjadinya kesalahan tinggi
  • Saat tata letak dokumen berulang, dapat terjadi fenomena baris yang terlewat
  • LLM dapat gagal membedakan antara prompt pengguna dan isi dokumen, sehingga menimbulkan interpretasi yang salah
  • Jika nilai pada tabel dipasangkan secara keliru, dapat terjadi kesalahan fatal → menimbulkan masalah besar di bidang keuangan, hukum, dan medis
  • Ada masalah pembuatan teks arbitrer → tetap memerlukan peninjauan manusia

Tantangan ke depan

  • Solusi OCR yang sempurna masih belum ada
  • Google, OpenAI, dan lainnya sedang meningkatkan performa melalui produk AI yang memahami konteks
  • Perusahaan AI berharap dapat memperoleh data pelatihan AI melalui ekstraksi data dari PDF
  • Jika AI dapat menangani data PDF secara sempurna, terbuka kemungkinan lahirnya era baru analisis data

1 komentar

 
sixmen 2025-03-20

"PDF tidak cocok untuk analisis digital karena merupakan format yang dibuat untuk tata letak cetak"

Menurut saya, HWP juga punya masalah serupa. Saya masih menganggap HWP sebagai perangkat lunak yang bagus, tetapi pada dasarnya dibuat untuk penerbitan sehingga sulit dianalisis.

Sebaliknya, Word berantakan jika dipakai untuk membuat hasil cetak, tetapi justru karena itu kita bisa lebih fokus pada isinya, sehingga tampaknya malah lebih cocok untuk era web/AI.