Mengapa mengekstrak data dari PDF masih tetap sulit

(arstechnica.com)

3 poin oleh GN⁺ 2025-03-20 | 1 komentar | Bagikan ke WhatsApp

Keterbatasan OCR (pengenalan karakter optik)

File PDF menyimpan data penting seperti riset ilmiah dan catatan pemerintah, tetapi karena formatnya tetap, file ini sulit dibaca dan dianalisis oleh mesin
PDF adalah format yang dibuat untuk tata letak cetak, sehingga tidak cocok untuk analisis digital
Banyak PDF memuat gambar dari informasi, sehingga diperlukan perangkat lunak OCR untuk mengubahnya menjadi data
Untuk dokumen lama atau dokumen tulisan tangan, kinerja OCR menjadi semakin buruk

Masalah data tidak terstruktur

Sekitar 80~90% data organisasi di seluruh dunia disimpan sebagai data tidak terstruktur, dan banyak yang terkandung dalam PDF
Ekstraksi data sangat sulit terutama pada tata letak dua kolom, tabel, grafik, dan hasil pindaian berkualitas gambar rendah
Ini menjadi masalah besar terutama dalam riset ilmiah, pelestarian dokumen sejarah, layanan pelanggan, dan memastikan aksesibilitas literatur teknis dalam sistem AI

Dampak menurut bidang

Berdampak pada operasional lembaga publik seperti arsip pemerintah, pengadilan, kepolisian, dan layanan sosial
Di industri yang bergantung pada informasi seperti asuransi dan perbankan, banyak waktu dan sumber daya dihabiskan untuk mengonversi data PDF

Sejarah teknologi OCR

Pada 1970-an, Ray Kurzweil mengembangkan sistem OCR komersial berbasis algoritma pencocokan pola
Kurzweil Reading Machine menyediakan fungsi pengenalan karakter bagi penyandang tunanetra
Sistem OCR tradisional bekerja dengan mengenali pola terang-gelap lalu mengubahnya menjadi karakter
Kinerjanya menurun pada font yang kompleks, tata letak multi-kolom, tabel, dan sejenisnya
OCR tradisional memiliki keterbatasan, tetapi karena kesalahannya dapat diprediksi, perbaikannya relatif mudah

Munculnya OCR berbasis AI

LLM multimodal (large language model) melakukan ekstraksi data dengan menggabungkan gambar dan teks
Model dari OpenAI, Google, dan Meta dapat mengenali elemen visual dokumen dan konteks teks secara bersamaan
OCR tradisional memakai pencocokan pola pada tingkat karakter, sedangkan AI memproses dokumen dengan memahami tata letak dan konteksnya
Textract milik Amazon menggunakan pendekatan OCR tradisional, sementara LLM dapat menganalisis dokumen dalam konteks yang lebih luas
Pendekatan ini lebih baik dalam menangani tata letak kompleks, tabel, caption, dan sebagainya

Upaya OCR baru berbasis LLM

Perusahaan AI asal Prancis, Mistral, meluncurkan Mistral OCR, API pemrosesan dokumen berbasis LLM
Tujuannya adalah mengekstrak teks dan gambar dari dokumen dengan tata letak yang kompleks
Muncul masalah performa: gagal menangani tabel pada dokumen lama dan terjadi kesalahan angka
Masalah juga muncul dalam pengenalan tulisan tangan → AI menghasilkan isi secara arbitrer (halusinasi)
Gemini 2.0 milik Google saat ini menunjukkan performa terbaik → kesalahan lebih sedikit bahkan pada dokumen kompleks

Masalah OCR berbasis LLM

Karena LLM adalah model berbasis probabilitas, kemungkinan terjadinya kesalahan tinggi
Saat tata letak dokumen berulang, dapat terjadi fenomena baris yang terlewat
LLM dapat gagal membedakan antara prompt pengguna dan isi dokumen, sehingga menimbulkan interpretasi yang salah
Jika nilai pada tabel dipasangkan secara keliru, dapat terjadi kesalahan fatal → menimbulkan masalah besar di bidang keuangan, hukum, dan medis
Ada masalah pembuatan teks arbitrer → tetap memerlukan peninjauan manusia

Tantangan ke depan

Solusi OCR yang sempurna masih belum ada
Google, OpenAI, dan lainnya sedang meningkatkan performa melalui produk AI yang memahami konteks
Perusahaan AI berharap dapat memperoleh data pelatihan AI melalui ekstraksi data dari PDF
Jika AI dapat menangani data PDF secara sempurna, terbuka kemungkinan lahirnya era baru analisis data

1 komentar

sixmen 2025-03-20

"PDF tidak cocok untuk analisis digital karena merupakan format yang dibuat untuk tata letak cetak"

Menurut saya, HWP juga punya masalah serupa. Saya masih menganggap HWP sebagai perangkat lunak yang bagus, tetapi pada dasarnya dibuat untuk penerbitan sehingga sulit dianalisis.

Sebaliknya, Word berantakan jika dipakai untuk membuat hasil cetak, tetapi justru karena itu kita bisa lebih fokus pada isinya, sehingga tampaknya malah lebih cocok untuk era web/AI.