Parsing dokumen tidak diperlukan dalam RAG: cukup gunakan gambar

(morphik.ai)

27 poin oleh GN⁺ 2025-07-23 | 1 komentar | Bagikan ke WhatsApp

Untuk mengekstrak informasi dari dokumen kompleks, pendekatan OCR dan parsing tradisional tidak mampu mempertahankan makna dengan baik
Morphik menerapkan metode embedding dokumen visual berbasis model ColPali yang dapat langsung memahami tabel, bagan, hingga konteks tata letak
Dibanding pipeline lama, metode ini jauh lebih unggul dalam hal akurasi dan pelestarian informasi, dengan capaian akurasi hingga 95,56% pada uji benchmark
Selain itu, dengan penerapan MUVERA dan Turbopuffer, mereka berhasil meningkatkan kecepatan dalam pencarian dokumen skala besar
Ke depannya, targetnya adalah otomasi pekerjaan dokumen yang nyata seperti penalaran multi-dokumen, integrasi workflow, dan interpretasi setingkat pakar

Batas parsing dokumen kompleks dan tantangan RAG

Saat mencoba mengekstrak informasi dari dokumen PDF kompleks yang mencampurkan grafik, diagram, dan tabel, pipeline OCR dan parsing sering kehilangan informasi yang dibutuhkan
Keterbatasan pipeline lama sangat terasa dalam situasi nyata seperti tabel bertingkat, diagram penting, dokumen teknis dengan banyak anotasi, bahkan manual tanpa teks
Tahapan pipeline lama:
- Menerapkan OCR ke PDF (angka atau huruf bisa salah dibaca)
- Mencoba membedakan tabel/diagram dengan model deteksi layout (peluang gagal tinggi)
- Memulihkan urutan baca (aliran visual bisa terlewat)
- Mengenali caption diagram (nuansa sering hilang)
- Text chunking (informasi yang saling terkait bisa terpisah)
- Membuat embedding vektor dan menyimpannya di vector DB (informasi posisi dan konteks hilang)
Contoh: bahkan tabel sederhana pun sering dibaca sebagai "1,000" menjadi "l,0O0", atau tabel dan header terpisah sehingga perhitungan total gagal
Kasus kehilangan informasi di dunia nyata juga sering terjadi, seperti legenda grafik dianggap sebagai teks isi, atau nilai persentase tersebar ke posisi yang salah

Pendekatan baru: beralih ke pemahaman dokumen berbasis visual

Tim Morphik menemukan titik balik dari pertanyaan: "Bagaimana jika dokumen dipahami sebagai objek visual seperti manusia melihatnya?"
Berkat riset terbaru (ColPali) dan perkembangan Vision Language Model (VLM), kini dimungkinkan untuk melakukan embedding langsung pada gambar sehingga seluruh konteks dokumen dan informasi visual tetap terjaga tanpa parsing atau OCR
Setiap halaman dokumen diproses sebagai gambar beresolusi tinggi, lalu dipecah per patch untuk menghasilkan embedding yang mencerminkan informasi visual sekaligus tekstual
SigLIP-So400m Vision Transformer membuat embedding patch visual, sementara model bahasa PaliGemma-3B memahami struktur dokumen
Untuk kueri (seperti "tren pendapatan Q3"), informasi terkait diekstrak secara akurat dengan metode pencarian late interaction yang mencakup petunjuk visual seperti teks, grafik, tabel, dan warna
Posisi dalam dokumen, layout, warna, perubahan grafik, dan semua informasi visual tetap dipertahankan—mirip cara manusia melihat dokumen secara sekilas

Perbandingan parsing tradisional dan pendekatan ColPali

Pipeline berbasis parsing lama kehilangan informasi di setiap tahap, dan karena embedding teks serta gambar terpisah, hubungan spasial di dalam dokumen tidak bisa diinterpretasikan
Sebaliknya, pendekatan ColPali mengintegrasikan semua informasi dalam satu ruang embedding visual, sehingga makna dan konteks keseluruhan dokumen tetap terjaga
Dalam benchmark nyata (berfokus pada dokumen keuangan, dataset publik), Morphik (berbasis ColPali) mencatat akurasi hingga 95,56% (sementara LangChain+OpenAI text-embedding hanya 72%, dan OpenAI file search hanya 13,33%)
Pada benchmark ViDoRe, pendekatan berbasis visual mencatat performa lebih tinggi lebih dari 14 poin persentase pada nDCG@5 dibanding pendekatan parsing tradisional

Optimasi performa dan penerapan nyata

Kelemahan pendekatan awal adalah penurunan kecepatan akibat beban komputasi, karena arsitekturnya memerlukan pencarian vektor untuk setiap patch sehingga tidak cocok untuk puluhan juta kueri per detik
Dengan merujuk pada paper MUVERA, diperkenalkan metode yang menggantikan pencarian multi-vektor menjadi pencarian vektor tunggal (encoding berdimensi tetap)
Dikombinasikan dengan vector DB khusus Turbopuffer, kecepatan kueri meningkat dari 3–4 detik menjadi sekitar 30ms
Hasilnya, pencarian jutaan dokumen kini dimungkinkan dengan kecepatan yang jauh lebih tinggi dibanding parsing teks tradisional

Bidang pemanfaatan dan API yang mudah digunakan

Mendukung pencarian berakurasi tinggi di berbagai jenis dokumen tanpa kehilangan struktur visual dan informasi
- Dokumen keuangan dengan tabel dan grafik kompleks yang sangat penting
- Manual teknis yang berpusat pada gambar/diagram
- Ekstraksi informasi berbasis layout dari invoice dan kuitansi
- Pemahaman materi visual/data numerik dalam paper riset
- Pengenalan relasi berbasis layout dalam rekam medis
API dibuat sangat sederhana: cukup unggah dokumen lalu ajukan pertanyaan dalam bahasa alami, misalnya permintaan seperti "tampilkan semua kontrak dengan klausul denda di atas 10 ribu dolar" dapat ditangani

Arah masa depan: kecerdasan multi-dokumen dan pemahaman yang lebih mendalam

Kecerdasan multi-dokumen: sedang mengembangkan kemampuan referensi silang dan pelacakan informasi antar banyak dokumen
- Melampaui pencarian dokumen tunggal, sistem ini mendukung pelacakan relasi dan penalaran antar dokumen (misalnya klausul kontrak → dokumen regulasi → manual eksekusi yang saling terhubung)
Kerangka pemahaman agen: melampaui tanya jawab sederhana dalam dokumen, menuju otomasi penalaran logis antar-chunk seperti ekstraksi klausul → verifikasi ke dokumen lain → cross-check detail
Integrasi workflow: meningkatkan kecerdasan otomasi dokumen agar sesuai dengan proses kerja nyata, seperti membandingkan syarat antar kontrak atau melacak riwayat keputusan teknis

Keterbatasan dan target berikutnya

Pendekatan saat ini belum mencapai kemampuan interpretasi dan penilaian kontekstual setingkat pakar
Bagian seperti analisis mendalam oleh pakar keuangan masih belum memadai secara teknis, dan kebutuhan enterprise seperti keandalan serta kuantifikasi ketidakpastian masih memerlukan pengembangan tambahan
Penggabungan pemahaman visual dengan knowledge graph domain, penalaran kausal, dan penyediaan metrik keandalan menjadi tantangan utama ke depan

Kesimpulan

Dokumen perlu diperlakukan sebagai objek pengetahuan visual, dan melampaui keterbatasan parsing, pemahaman dokumen berbasis gambar adalah solusi yang lebih unggul dalam lingkungan RAG
Morphik ingin menghadirkan standar baru dalam ekstraksi informasi dokumen, dengan sasaran otomasi workflow dokumen kompleks dan penerapan di pekerjaan nyata
Pengalaman fitur lebih lanjut tersedia di morphik.ai

1 komentar

GN⁺ 2025-07-23

Komentar Hacker News

Ada beberapa masalah mendasar yang wajib dipahami orang
LLM umumnya dilatih lebih dulu pada 4k token teks, lalu diperluas ke context window yang panjang (melangkah dari 4000 ke 4001 itu mudah, tetapi ini tidak bisa dilakukan untuk gambar karena cara tokenisasinya berbeda)
Akibatnya model keluar dari distribusi, sehingga saat menangani lebih dari dua atau tiga gambar masalah halusinasi menjadi sangat parah
PDF beresolusi 1536×2048 memakai token 3~5 kali lebih banyak daripada teks, sehingga biaya inferensi naik dan jawaban menjadi lebih lambat
Jika resolusinya diturunkan, gambar menjadi buram
Ukuran asli gambar sendiri berat, jadi hanya untuk mengunduh gambar yang dibutuhkan saja sudah menambah latensi pada setiap permintaan
Pada benchmark kecil, pendekatan ini memang secara alami bekerja lebih baik daripada chunking teks dasar untuk dokumen finansial yang penuh grafik dan tabel
Secara pribadi saya ingin membandingkannya dengan pendekatan seperti Gemini yang memungkinkan anotasi gambar lewat OCR
Pendekatan gambar end-to-end masuk akal untuk kasus khusus seperti paten, diagram arsitektur, dan sejenisnya, tetapi benar-benar merupakan pilihan terakhir
- Saya rasa akan bagus jika OCR tradisional digabungkan dengan LLM agar bisa memperbaiki kesalahan dan bahkan merepresentasikan diagram
  LLM punya masalah membuat teks yang terdengar masuk akal pada bagian yang tidak bisa dibacanya, sehingga hasilnya bisa jadi makin kacau
  Misalnya, GPT4.1 bekerja sempurna pada screenshot berukuran 1296×179, tetapi saat diperkecil 50% menjadi 650×84, model mengembalikan "Pdf's at 1536 × 2048 use 3 to 5X more tokens" sebagai "A PNG at 512x 2048 is 3.5k more tokens"
  Sebagian besar memang benar, tetapi perubahan detail halus seperti ini perlu diwaspadai
- Model terbaru seperti gemma3, pan & scan, pelatihan pada berbagai resolusi, dan sebagainya membantu meredakan masalah ini
  Karakteristik menarik dari keluarga gemma3 adalah kebutuhan memori pemrosesannya tidak bertambah meskipun ukuran gambar input diperbesar
  Karena encoder tahap kedua mengompresinya menjadi token berukuran tetap
  Dalam praktiknya ini cukup berguna
- Jika OCR ditambahkan ke Gemini, saya memperkirakan hasilnya bisa lebih baik daripada model OCR yang ada
  Tetapi dengan begitu seluruh kumpulan dokumen yang diproses harus melewati VLM besar
  Itu bisa menjadi terlalu mahal dan lambat
  Jelas ada trade-off di sini
  Dalam kebanyakan kasus, pendekatan saat ini adalah yang paling efektif
- Itulah tepatnya peran produk document parse yang mereka rilis
  Ada kalanya orang memasukkan apa pun ke LLM, padahal tergantung situasinya itu bisa jadi tidak cocok
  Tidak semua hal harus diproses dengan LLM
- Saya setuju dengan logikanya
  Rasanya ini bisa diperluas menjadi ide untuk mengubah pipeline RAG
  Untuk setiap hasil RAG, pada tahap pemrosesan model kita bisa mengekstrak dari gambar hanya informasi yang langsung relevan dengan kueri pengguna, lalu mengumpulkan hasil (teks) itu sebagai input untuk generasi akhir
  Dengan begitu kita bisa menghindari batas token banyak gambar sekaligus memparalelkan proses pemahaman gambar
Saya dan rekan-rekan pernah mencoba implementasi seperti ini 6 bulan lalu untuk sebuah lembaga pemerintah Prancis
Kami menyediakannya sebagai open source di sini: https://github.com/jolibrain/colette
Ini bukan bisnis utama kami dan sekarang hanya dibiarkan begitu saja, tetapi dengan sedikit tuning sistem ini bekerja cukup efisien
Daya tarik utamanya adalah seluruh pipeline bisa dibuat sepenuhnya dapat didiferensiasikan, sehingga viz rag dapat di-fine-tune untuk dataset tertentu
Model layout juga bisa dikustomisasi sehingga pemahaman dokumen yang presisi menjadi mungkin
- Tidak ada lisensi di bagian paling atas, jadi bagi orang yang peduli lisensi situasinya sekarang bahkan tidak bisa dipakai hanya sebagai referensi
- Saya setuju bahwa fine-tuning benar-benar bagian terbaiknya
  Dalam banyak kasus, hambatan terbesarnya adalah perlunya evaluation set berkualitas tinggi (dan ini memang selalu menjadi hambatan)
Saya sudah melakukan banyak studi benchmarking OCR versus gambar + LLM umum: https://getomni.ai/blog/ocr-benchmark
Masalah terbesar dari pendekatan ekstraksi langsung dari gambar adalah dokumen multi-halaman
Pada satu halaman, dalam perbandingan (OCR=>LLM vs Image=LLM) pendekatan gambar langsung sedikit lebih baik, tetapi setelah melewati 5 gambar atau lebih, akurasinya turun tajam dibandingkan pendekatan OCR-first
Sebenarnya long-context recall pada teks saja sudah merupakan tantangan yang sulit, dan meskipun LLM dioptimalkan untuk itu, long-context recall pada gambar masih jauh tertinggal
- Dalam kebanyakan use case nyata, konteks lebih dari 5 halaman sering kali sudah berlebihan
  Menambahkan layer transformasi kecil dari gambar langsung ke LLM juga cukup efektif (artinya alih-alih melakukan OCR langsung, kirim 5 gambar sekaligus ke model vision kecil untuk mengekstrak hanya poin-poin terpenting dokumen)
  Saat ini kami sedang meneliti cara memodifikasi cache atau attention map LLM agar batch gambar yang lebih besar bisa bekerja dengan baik
  Pendekatan seperti sliding window atau infinite retrieval tampak menjanjikan
  Ini hanya dugaan pribadi, tetapi melihat percepatan perkembangan model multimodal, saya rasa long-context gambar sebentar lagi tidak akan lagi menjadi masalah besar
Postingan blog ini memberi poin yang bagus soal penggunaan model vision untuk retrieval, tetapi saya ingin menyoroti beberapa masalah
1. Blog tersebut mencampuradukkan indexing/retrieval dengan document parsing
  Document parsing adalah pekerjaan mengubah dokumen menjadi teks terstruktur seperti Markdown/JSON (atau output yang disesuaikan dengan skema saat melakukan ekstraksi)
  Salah satu gunanya adalah RAG, tetapi ada banyak kegunaan lain juga
  ColPali sangat bagus untuk retrieval, tetapi (setidaknya secara native) tidak bisa dipakai untuk document parsing murni
  Penulis terutama hanya membahas benchmark visual retrieval
2. Document parsing DIY lewat screenshot halaman sudah lama menjadi pendekatan yang banyak dibicarakan
  Sering kali memang bekerja lebih baik daripada OCR standar, tetapi
  a. masih ada masalah akurasi long tail
  b. metadata seperti confidence score, bounding box, dan sebagainya hilang
  c. pipeline screenshot itu sendiri juga butuh upaya jika ingin dibuat canggih
3. Secara umum, retrieval membutuhkan representasi teks dan gambar sekaligus
  Token gambar memang jauh lebih kuat, tetapi token teks jauh lebih murah biaya penyimpanannya, sehingga saat retrieval kita bisa melakukan kueri terhadap seluruh dokumen (bukan hanya per chunk)
  (Catatan: saya adalah CEO llamaindex dan telah melakukan parsing/retrieval dengan LlamaCloud, jadi ini hanya pandangan umum saya)
Tahun lalu saya menghabiskan cukup banyak waktu membangun sistem analisis dokumen paten
Paten memuat berbagai jenis konten seperti diagram abstrak, rumus kimia, persamaan, dan lain-lain, sehingga menyiapkan data agar cocok untuk LLM benar-benar rumit
Cara paling sederhana yang saya temukan adalah mengonversi tiap halaman seperti sedang “memotret”, lalu meminta LLM menghasilkan JSON dan metadata yang menjelaskan isinya (nomor halaman, jumlah elemen visual, dan sebagainya)
Untuk gambar yang kompleks, cukup minta model mendeskripsikannya
Dengan begitu JSON tersebut bisa dengan mudah di-embed ke vector store yang diinginkan
Sulit menilai efisiensi biaya dibanding hasilnya, tetapi pendekatan ini lebih sederhana dan lebih efektif daripada yang diusulkan penulis
- Walaupun kita bisa meminta model mendeskripsikan gambar, ada masalah bahwa itu sendiri sangat lossy
  Misalnya, walau model sebagian besar mampu mengekstrak pasangan x, y dari grafik dengan benar, jika pengguna menunjuk x/y tertentu, model bisa saja melewatkannya
  Jika pada tahap inferensi gambar ditunjukkan langsung ke model, pendekatan ini lebih efektif karena model bisa menjawab tepat apa yang ditanyakan pengguna
  Satu-satunya hambatan nyata di sini adalah kualitas retrieval, dan itu masalah yang relatif kecil
  Artinya, selama konteks yang tepat bisa diberikan dengan baik, sisanya dapat ditangani sendiri oleh LLM
  Kalau tidak, jumlah masalah yang harus diurus seperti OCR, parsing, deskripsi gambar, dan sebagainya meningkat tajam
- Menurut saya ini contoh use case LLM yang bagus
  Namun ini juga menunjukkan bahwa peluang LLM terkonsentrasi pada pengklasifikasian ulang/pemrosesan ulang nilai yang sudah ada sebelumnya (seperti dokumen paten)
  Pada era 90-00-an, perusahaan software berhasil berbisnis dengan mengubah dokumen kertas lama menjadi DB
  Membuat dataset baru yang bernilai dari nol masih membutuhkan investasi dan usaha yang besar
- Saya penasaran seberapa sering model berhalusinasi (salah menafsirkan) gambar
Dari pengalaman saya, pendekatan ini kurang bagus
Bergantung pada font-nya, sulit membedakan o (huruf o) dan 0 (angka nol)
Jika dokumen (doc/xls/pdf/html) diubah menjadi gambar, informasi pembeda seperti itu hilang
Untuk nomor seri dan sejenisnya, kadang manusia pun tidak bisa membedakannya hanya dengan melihat
- PDF tidak selalu mengandung teks yang sebenarnya; kadang hanya menggambar huruf seperti sedang melukis
  Karena itu, mengekstraknya dengan merender PDF sebagai gambar cukup masuk akal
  Untuk format lainnya, parsing dokumen secara langsung lebih baik
- Konteksnya di sini adalah menggunakan gambar sebagai alternatif OCR, dan OCR pun memiliki masalah serupa ditambah infrastruktur yang lebih rumit serta biaya tambahan
- Untuk HTML, sering kali hasilnya lebih baik jika di-chunk berdasarkan tag
  Tetapi secara praktik, saat mengerjakan desain halaman, menunjukkan gambar aktual ke model jauh lebih efektif untuk debugging daripada hanya memberikan kodenya
  Masalah 1 vs I dan 0 vs O memang nyata, tetapi untuk dokumen yang datanya sendiri penuh diagram/grafik, saya sering mendapati gambar saja jauh lebih mudah diproses
  (Mungkin ada selection bias)
Saya sempat beberapa menit mencoba menyalin jadwal ke Gemini lalu menanyakannya, tetapi meskipun berbentuk HTML tetap tidak berhasil dengan baik
Akhirnya saya ambil screenshot, menutupi bagian yang tidak perlu dengan kotak hitam, lalu memasukkan gambar itu, dan hasilnya bekerja sangat baik
Saya penasaran karena rasanya masalah ini sudah diselesaikan oleh multimodal RAG
Saya mendapatkan hasil analisis gambar yang cukup memuaskan dengan Flash 2.5, Sonnet 3.7, dan sebagainya
Malah saya merasa ketika diberi gambar, responsnya lebih baik dibanding saat diberi teks
https://www.youtube.com/watch?v=p7yRLIj9IyQ
- Multimodal RAG memang tepat arah yang kami dorong
  Hanya saja, multivector mentah (fondasi dari multimodal RAG) sangat sulit ditangani di awal dan perhitungan kemiripannya sangat mahal, sehingga sulit di-scale up
  Diperlukan quantization, konversi ke vektor tunggal (encoding dimensi tetap), optimasi indexing, dan sebagainya
  Itulah tepatnya yang kami kerjakan di Morphik
Saya juga pernah mencoba memindai semua tagihan sekaligus dengan mengekstrak hanya lampiran dari kotak masuk, lalu menjalankan skrip yang mengunggahnya satu per satu agar mengekstrak “invoice: ya/tidak” serta tiap item, nama vendor, tanggal, nomor invoice, dan sebagainya
Hasilnya tingkat keterbacaannya tinggi dan panggilan LLM berjalan lebih dari 3 jam, tetapi karena otomatis saya tidak terlalu peduli
Setelah itu saya bahkan meminta LLM mencocokkannya dengan mutasi bank, dan hanya sebagian invoice yang tidak datang sebagai lampiran yang terlewat
Namun, pencocokan invoice-mutasi ini dilakukan LLM dengan cukup buruk (bahkan jika selisihnya hanya beberapa dolar, model tetap menjawab inilah mutasinya)
Jadi untuk sementara sepertinya akuntan masih dibutuhkan
Saya tidak benar-benar memperkirakan biayanya, dan saya memakai model murah seperti Claude 3.7
- Untuk pencocokan data sederhana seperti ini, tampaknya akan lebih akurat jika alih-alih LLM mencocokkan langsung, LLM diminta menulis kode pencocokannya lalu kode itu dijalankan
Saya paham ColPali itu intuitif dan kuat, tetapi tetap saja pendekatan pemrosesan dokumen punya sejumlah keunggulan
- Pencarian berbasis leksikal seperti BM25, TFIDF, dan sebagainya jauh lebih baik dalam menangkap istilah tertentu
- Pencarian seluruh isi dokumen dimungkinkan

Parsing dokumen tidak diperlukan dalam RAG: cukup gunakan gambar

Batas parsing dokumen kompleks dan tantangan RAG

Pendekatan baru: beralih ke pemahaman dokumen berbasis visual

Perbandingan parsing tradisional dan pendekatan ColPali

Optimasi performa dan penerapan nyata

Bidang pemanfaatan dan API yang mudah digunakan

Arah masa depan: kecerdasan multi-dokumen dan pemahaman yang lebih mendalam

Keterbatasan dan target berikutnya

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News