- PDF masih menjadi format dokumen arus utama → tetapi memiliki keterbatasan untuk performa pencarian LLM
- Eksperimen konversi PDF→Markdown dengan markitdown open source dari Microsoft
- Ada keterbatasan seperti rumus dan layout yang rusak, tetapi keterbacaan dapat ditingkatkan dengan koreksi LLM
- Cocok untuk PDF satu kolom yang berfokus pada teks, dokumen kompleks memiliki keterbatasan
5 komentar
Bahkan dalam RAG, dokumen PDF ini selalu menjadi masalah.
Format terburuk, PDF
markitdown memang praktis untuk konversi antar format, tapi untuk PDF sama sekali jangan dipakai deh
Untuk ekstraksi dokumen sendiri, sudah banyak metode yang memakai LLM multimodal seperti Gemini, dan di benchmark hasilnya juga cukup bagus. Hanya saja, biayanya yang jadi masalah.
Yang seperti docling juga bagus.
docling juga bagus
markitdown menggunakan ini untuk parsing PDF: https://github.com/pdfminer/pdfminer.six, lalu mengekstrak teks atau gambar tersemat langsung dari file. Katanya OCR, bikin pusing saja...