18 poin oleh computerphilosopher 2025-09-20 | 5 komentar | Bagikan ke WhatsApp
  • PDF masih menjadi format dokumen arus utama → tetapi memiliki keterbatasan untuk performa pencarian LLM
  • Eksperimen konversi PDF→Markdown dengan markitdown open source dari Microsoft
  • Ada keterbatasan seperti rumus dan layout yang rusak, tetapi keterbacaan dapat ditingkatkan dengan koreksi LLM
  • Cocok untuk PDF satu kolom yang berfokus pada teks, dokumen kompleks memiliki keterbatasan

5 komentar

 
ahwjdekf 2025-09-23

Bahkan dalam RAG, dokumen PDF ini selalu menjadi masalah.

 
ahwjdekf 2025-09-22

Format terburuk, PDF

 
kbumsik 2025-09-22

markitdown memang praktis untuk konversi antar format, tapi untuk PDF sama sekali jangan dipakai deh

Untuk ekstraksi dokumen sendiri, sudah banyak metode yang memakai LLM multimodal seperti Gemini, dan di benchmark hasilnya juga cukup bagus. Hanya saja, biayanya yang jadi masalah.

Yang seperti docling juga bagus.

 
kaydash 2025-09-22

docling juga bagus

 
lamanus 2025-09-21

markitdown menggunakan ini untuk parsing PDF: https://github.com/pdfminer/pdfminer.six, lalu mengekstrak teks atau gambar tersemat langsung dari file. Katanya OCR, bikin pusing saja...