29 poin oleh GN⁺ 2025-02-06 | 2 komentar | Bagikan ke WhatsApp
  • Proses mengubah PDF menjadi potongan teks (chunking) adalah salah satu masalah paling merepotkan saat membangun sistem RAG skala besar
  • Baik solusi open source maupun komersial sudah ada, tetapi masih sulit mendapatkan hasil yang memuaskan dari sisi akurasi, skalabilitas, dan efisiensi biaya
    • Contoh: NVIDIA nv-ingest mengharuskan beberapa layanan disusun dalam klaster Kubernetes dan merupakan pendekatan kompleks yang banyak menghabiskan sumber daya GPU
    • Beberapa layanan komersial juga punya masalah akurasi yang kurang sebanding dengan biayanya, atau harganya melonjak sangat tinggi jika diterapkan pada dokumen dalam skala besar

Kemunculan Gemini Flash 2.0

  • Sudah ada upaya untuk memanfaatkan model besar (LLM) untuk OCR, konversi PDF, dan sebagainya, tetapi penghematan biaya nyata yang didapat sangat kecil dan kesalahan tak terduga sering muncul
    • Contoh: ada laporan bahwa GPT-4o menambahkan sel yang tidak perlu pada tabel
  • Gemini Flash 2.0 dinilai memberikan akurasi dan efisiensi biaya yang jauh lebih baik dibanding versi 1.5 Flash
    • Berdasarkan hasil pengujian internal, model ini mencapai akurasi OCR yang nyaris sempurna dengan biaya yang sangat murah
  • Pengalaman pengembang (Developer Experience) Google dinilai masih agak tertinggal dibanding OpenAI, tetapi harga yang masuk akal menjadi keunggulan besar

Perbandingan biaya dan akurasi

  • Saat mengonversi PDF ke format Markdown, Gemini Flash 2.0 unggul dari sisi biaya pemrosesan per halaman
    • 2.0 Flash: sekitar 6.000 halaman/$1
    • 2.0 Flash Lite: sekitar 12.000 halaman/$1 (sebelum pengujian)
    • 1.5 Flash: sekitar 10.000 halaman/$1
    • AWS Textract: sekitar 1.000 halaman/$1
    • OpenAI 4o-mini: sekitar 450 halaman/$1, dll.
  • Untuk akurasi ekstraksi tabel, model internal Reducto mencatat skor tertinggi yaitu 0,90, sementara Gemini 2.0 Flash dan Anthropic Sonnet berada di kisaran 0,84
    • Kasus yang tampak salah pada Gemini sebagian besar adalah masalah format struktural, dan relatif jarang terjadi kesalahan dalam mengenali angka sebenarnya
  • Di luar itu, ekstraksi teks secara umum bekerja hampir sempurna

Pemecahan dokumen (chunking) dan pemanfaatan LLM

  • Untuk digunakan dalam pipeline RAG, teks yang telah diekstrak perlu dipecah berdasarkan unit makna
  • Ada hasil penelitian yang menunjukkan bahwa LLM besar dapat menentukan batas teks secara lebih alami
  • Namun sampai sekarang biayanya terlalu tinggi sehingga sulit diterapkan pada kumpulan dokumen besar di dunia nyata
  • Berkat Gemini Flash 2.0, pemecahan chunk berbasis LLM kini bisa diterapkan secara murah bahkan pada dokumen berskala besar
    • Contoh: korpus PDF berukuran 100 juta halaman dapat diproses dengan biaya sekitar $5.000
  • Contoh prompt sederhana:

    OCR the following page into Markdown. Tables should be formatted as HTML.
    Do not sorround your output with triple backticks.

    Chunk the document into sections of roughly 250 - 1000 words. Our goal is
    to identify parts of the page with same semantic theme. These chunks will
    be embedded and used in a RAG pipeline.

    Surround the chunks with <chunk> </chunk> html tags.

Masalah Bounding Box

  • Dalam PDF, informasi posisi teks (misalnya Bounding Box) perlu dipertahankan agar bukti yang akurat bisa diberikan kepada pengguna
  • Hilangnya informasi posisi saat dikonversi ke Markdown merupakan kelemahan besar
  • Beberapa penelitian menunjukkan contoh bahwa LLM dapat memahami aspek spasial dalam gambar dan dokumen, tetapi saat ini model Gemini belum mampu memberikan Bounding Box yang akurat
  • Jika Google memperkuat data tata letak dokumen melalui pelatihan tambahan atau fine-tuning, ada kemungkinan masalah ini bisa teratasi

Alasan dan pentingnya hal ini

  • Solusi ekstraksi dan pemecahan PDF yang murah dan akurat merupakan elemen kunci untuk menyederhanakan pipeline pengindeksan dokumen skala besar dan meningkatkan skalabilitas
  • Jika masalah parsing, chunking, dan bounding box terpecahkan, pemrosesan dokumen berbasis LLM akan menjadi jauh lebih mudah
  • Ke depannya, kemungkinan akan bermunculan library open source yang semakin matang, dan ini akan menjadi fondasi yang mudah dimanfaatkan oleh berbagai perusahaan dan pengembang
  • Jika ada yang mengetahui informasi terkait program kredit AI Startup Google, penulis berharap bisa dihubungi

Catatan

  • [1] Dilampirkan gambar contoh yang membandingkan Reducto vs Gemini vs PDF asli
  • [2] Perhitungan biaya Gemini Flash 2.0: berdasarkan biaya input gambar $0.00009675 dan biaya output $0.0000525 per 400 token, diperkirakan sekitar 6.379 halaman/$1

2 komentar

 
jacde 2025-02-07

Dari sisi biaya maupun performa, sepertinya agent chunking akan cukup efektif.

 
ragingwind 2025-02-06

Pasar untuk mengonversi ke format yang siap untuk LLM tampaknya sangat kompetitif.