Microsoft MarkItDown - Alat Python untuk mengonversi file dan dokumen Office ke Markdown
(github.com/microsoft)- Alat utilitas untuk mengonversi berbagai file ke Markdown
- Format yang didukung:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Gambar (metadata EXIF dan OCR), audio (metadata EXIF dan transkripsi suara)
- HTML (terutama penanganan khusus untuk Wikipedia, dll.) serta berbagai format berbasis teks lainnya (csv, json, xml, dll.)
- Cara penggunaan API sederhana:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 komentar
Oh, sepertinya bahkan di internal Microsoft juga sedang berusaha menjadikannya open source, ya?
Komentar Hacker News
Jika
uvsudah terpasang, ini bisa dijalankan pada file tanpa instalasi terpisah dengan perintahuvx markitdown path-to-file.pdfPernah punya pengalaman mengembangkan fitur di perusahaan untuk mengubah file menjadi teks yang ramah LLM
Banyak startup dan proyek open source membuat bidang ini jadi rumit, tetapi tujuan akhirnya adalah proyek sederhana yang mudah dipahami dan mudah di-deploy
Akan bagus jika ada fitur untuk mengatur "seberapa banyak pemrosesan yang diinginkan" dalam penanganan PDF
Untuk penanganan PDF, mungkin lebih baik mengintegrasikan PDFMiner secara langsung
File .docx bisa diubah ke Markdown dan format file lain menggunakan Pandoc
Pernah mengindeks buku tabletop RPG dalam format PDF dengan layout visual yang rumit dan banyak tabel
Agak tak terduga tetapi positif bahwa tidak ada penyebutan LLM di README
Berbagi pengalaman saat mengumpulkan tugas lewat Slack di kelas bahasa online
.md, tetapi guru tidak memahaminyaPenasaran dengan perbandingannya terhadap docling
Ingin tahu apakah ada library yang bagus untuk mengonversi dari Markdown ke PDF atau .docx
Karena ini Microsoft, kemungkinan hasil dari Outlook HTML dan .docx setidaknya setengahnya cukup baik