- Proses mengubah PDF menjadi potongan teks (
chunking) adalah salah satu masalah paling merepotkan saat membangun sistem RAG skala besar - Baik solusi open source maupun komersial sudah ada, tetapi masih sulit mendapatkan hasil yang memuaskan dari sisi akurasi, skalabilitas, dan efisiensi biaya
- Contoh: NVIDIA nv-ingest mengharuskan beberapa layanan disusun dalam klaster Kubernetes dan merupakan pendekatan kompleks yang banyak menghabiskan sumber daya GPU
- Beberapa layanan komersial juga punya masalah akurasi yang kurang sebanding dengan biayanya, atau harganya melonjak sangat tinggi jika diterapkan pada dokumen dalam skala besar
Kemunculan Gemini Flash 2.0
- Sudah ada upaya untuk memanfaatkan model besar (LLM) untuk OCR, konversi PDF, dan sebagainya, tetapi penghematan biaya nyata yang didapat sangat kecil dan kesalahan tak terduga sering muncul
- Contoh: ada laporan bahwa GPT-4o menambahkan sel yang tidak perlu pada tabel
- Gemini Flash 2.0 dinilai memberikan akurasi dan efisiensi biaya yang jauh lebih baik dibanding versi 1.5 Flash
- Berdasarkan hasil pengujian internal, model ini mencapai akurasi OCR yang nyaris sempurna dengan biaya yang sangat murah
- Pengalaman pengembang (Developer Experience) Google dinilai masih agak tertinggal dibanding OpenAI, tetapi harga yang masuk akal menjadi keunggulan besar
Perbandingan biaya dan akurasi
- Saat mengonversi PDF ke format Markdown, Gemini Flash 2.0 unggul dari sisi biaya pemrosesan per halaman
- 2.0 Flash: sekitar 6.000 halaman/$1
- 2.0 Flash Lite: sekitar 12.000 halaman/$1 (sebelum pengujian)
- 1.5 Flash: sekitar 10.000 halaman/$1
- AWS Textract: sekitar 1.000 halaman/$1
- OpenAI 4o-mini: sekitar 450 halaman/$1, dll.
- Untuk akurasi ekstraksi tabel, model internal Reducto mencatat skor tertinggi yaitu 0,90, sementara Gemini 2.0 Flash dan Anthropic Sonnet berada di kisaran 0,84
- Kasus yang tampak salah pada Gemini sebagian besar adalah masalah format struktural, dan relatif jarang terjadi kesalahan dalam mengenali angka sebenarnya
- Di luar itu, ekstraksi teks secara umum bekerja hampir sempurna
Pemecahan dokumen (chunking) dan pemanfaatan LLM
- Untuk digunakan dalam pipeline RAG, teks yang telah diekstrak perlu dipecah berdasarkan unit makna
- Ada hasil penelitian yang menunjukkan bahwa LLM besar dapat menentukan batas teks secara lebih alami
- Namun sampai sekarang biayanya terlalu tinggi sehingga sulit diterapkan pada kumpulan dokumen besar di dunia nyata
- Berkat Gemini Flash 2.0, pemecahan chunk berbasis LLM kini bisa diterapkan secara murah bahkan pada dokumen berskala besar
- Contoh: korpus PDF berukuran 100 juta halaman dapat diproses dengan biaya sekitar $5.000
- Contoh prompt sederhana:
OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.Surround the chunks with <chunk> </chunk> html tags.
Masalah Bounding Box
- Dalam PDF, informasi posisi teks (misalnya Bounding Box) perlu dipertahankan agar bukti yang akurat bisa diberikan kepada pengguna
- Hilangnya informasi posisi saat dikonversi ke Markdown merupakan kelemahan besar
- Beberapa penelitian menunjukkan contoh bahwa LLM dapat memahami aspek spasial dalam gambar dan dokumen, tetapi saat ini model Gemini belum mampu memberikan Bounding Box yang akurat
- Jika Google memperkuat data tata letak dokumen melalui pelatihan tambahan atau fine-tuning, ada kemungkinan masalah ini bisa teratasi
Alasan dan pentingnya hal ini
- Solusi ekstraksi dan pemecahan PDF yang murah dan akurat merupakan elemen kunci untuk menyederhanakan pipeline pengindeksan dokumen skala besar dan meningkatkan skalabilitas
- Jika masalah parsing, chunking, dan bounding box terpecahkan, pemrosesan dokumen berbasis LLM akan menjadi jauh lebih mudah
- Ke depannya, kemungkinan akan bermunculan library open source yang semakin matang, dan ini akan menjadi fondasi yang mudah dimanfaatkan oleh berbagai perusahaan dan pengembang
- Jika ada yang mengetahui informasi terkait program kredit AI Startup Google, penulis berharap bisa dihubungi
Catatan
- [1] Dilampirkan gambar contoh yang membandingkan Reducto vs Gemini vs PDF asli
- [2] Perhitungan biaya Gemini Flash 2.0: berdasarkan biaya input gambar $0.00009675 dan biaya output $0.0000525 per 400 token, diperkirakan sekitar 6.379 halaman/$1
2 komentar
Dari sisi biaya maupun performa, sepertinya agent chunking akan cukup efektif.
Pasar untuk mengonversi ke format yang siap untuk LLM tampaknya sangat kompetitif.