Cara memproses jutaan PDF dan mengapa Gemini 2.0 mengubah segalanya

(sergey.fyi)

29 poin oleh GN⁺ 2025-02-06 | 2 komentar | Bagikan ke WhatsApp

Proses mengubah PDF menjadi potongan teks (chunking) adalah salah satu masalah paling merepotkan saat membangun sistem RAG skala besar
Baik solusi open source maupun komersial sudah ada, tetapi masih sulit mendapatkan hasil yang memuaskan dari sisi akurasi, skalabilitas, dan efisiensi biaya
- Contoh: NVIDIA nv-ingest mengharuskan beberapa layanan disusun dalam klaster Kubernetes dan merupakan pendekatan kompleks yang banyak menghabiskan sumber daya GPU
- Beberapa layanan komersial juga punya masalah akurasi yang kurang sebanding dengan biayanya, atau harganya melonjak sangat tinggi jika diterapkan pada dokumen dalam skala besar

Kemunculan Gemini Flash 2.0

Sudah ada upaya untuk memanfaatkan model besar (LLM) untuk OCR, konversi PDF, dan sebagainya, tetapi penghematan biaya nyata yang didapat sangat kecil dan kesalahan tak terduga sering muncul
- Contoh: ada laporan bahwa GPT-4o menambahkan sel yang tidak perlu pada tabel
Gemini Flash 2.0 dinilai memberikan akurasi dan efisiensi biaya yang jauh lebih baik dibanding versi 1.5 Flash
- Berdasarkan hasil pengujian internal, model ini mencapai akurasi OCR yang nyaris sempurna dengan biaya yang sangat murah
Pengalaman pengembang (Developer Experience) Google dinilai masih agak tertinggal dibanding OpenAI, tetapi harga yang masuk akal menjadi keunggulan besar

Saat mengonversi PDF ke format Markdown, Gemini Flash 2.0 unggul dari sisi biaya pemrosesan per halaman
- 2.0 Flash: sekitar 6.000 halaman/$1
- 2.0 Flash Lite: sekitar 12.000 halaman/$1 (sebelum pengujian)
- 1.5 Flash: sekitar 10.000 halaman/$1
- AWS Textract: sekitar 1.000 halaman/$1
- OpenAI 4o-mini: sekitar 450 halaman/$1, dll.
Untuk akurasi ekstraksi tabel, model internal Reducto mencatat skor tertinggi yaitu 0,90, sementara Gemini 2.0 Flash dan Anthropic Sonnet berada di kisaran 0,84
- Kasus yang tampak salah pada Gemini sebagian besar adalah masalah format struktural, dan relatif jarang terjadi kesalahan dalam mengenali angka sebenarnya
Di luar itu, ekstraksi teks secara umum bekerja hampir sempurna

Untuk digunakan dalam pipeline RAG, teks yang telah diekstrak perlu dipecah berdasarkan unit makna
Ada hasil penelitian yang menunjukkan bahwa LLM besar dapat menentukan batas teks secara lebih alami
Namun sampai sekarang biayanya terlalu tinggi sehingga sulit diterapkan pada kumpulan dokumen besar di dunia nyata
Berkat Gemini Flash 2.0, pemecahan chunk berbasis LLM kini bisa diterapkan secara murah bahkan pada dokumen berskala besar
- Contoh: korpus PDF berukuran 100 juta halaman dapat diproses dengan biaya sekitar $5.000
Contoh prompt sederhana:

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

Dalam PDF, informasi posisi teks (misalnya Bounding Box) perlu dipertahankan agar bukti yang akurat bisa diberikan kepada pengguna
Hilangnya informasi posisi saat dikonversi ke Markdown merupakan kelemahan besar
Beberapa penelitian menunjukkan contoh bahwa LLM dapat memahami aspek spasial dalam gambar dan dokumen, tetapi saat ini model Gemini belum mampu memberikan Bounding Box yang akurat
Jika Google memperkuat data tata letak dokumen melalui pelatihan tambahan atau fine-tuning, ada kemungkinan masalah ini bisa teratasi

Solusi ekstraksi dan pemecahan PDF yang murah dan akurat merupakan elemen kunci untuk menyederhanakan pipeline pengindeksan dokumen skala besar dan meningkatkan skalabilitas
Jika masalah parsing, chunking, dan bounding box terpecahkan, pemrosesan dokumen berbasis LLM akan menjadi jauh lebih mudah
Ke depannya, kemungkinan akan bermunculan library open source yang semakin matang, dan ini akan menjadi fondasi yang mudah dimanfaatkan oleh berbagai perusahaan dan pengembang
Jika ada yang mengetahui informasi terkait program kredit AI Startup Google, penulis berharap bisa dihubungi

[1] Dilampirkan gambar contoh yang membandingkan Reducto vs Gemini vs PDF asli
[2] Perhitungan biaya Gemini Flash 2.0: berdasarkan biaya input gambar $0.00009675 dan biaya output $0.0000525 per 400 token, diperkirakan sekitar 6.379 halaman/$1

jacde 2025-02-07

Dari sisi biaya maupun performa, sepertinya agent chunking akan cukup efektif.

ragingwind 2025-02-06

Pasar untuk mengonversi ke format yang siap untuk LLM tampaknya sangat kompetitif.