Microsoft MarkItDown - Alat Python untuk mengonversi file dan dokumen Office ke Markdown

(github.com/microsoft)

31 poin oleh GN⁺ 2024-12-14 | 2 komentar | Bagikan ke WhatsApp

Alat utilitas untuk mengonversi berbagai file ke Markdown
Format yang didukung:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Gambar (metadata EXIF dan OCR), audio (metadata EXIF dan transkripsi suara)
- HTML (terutama penanganan khusus untuk Wikipedia, dll.) serta berbagai format berbasis teks lainnya (csv, json, xml, dll.)

Cara penggunaan API sederhana:

from markitdown import MarkItDown  
markitdown = MarkItDown()  
result = markitdown.convert("test.xlsx")  
print(result.text_content)

2 komentar

kandk 2024-12-16

Oh, sepertinya bahkan di internal Microsoft juga sedang berusaha menjadikannya open source, ya?

GN⁺ 2024-12-14

Komentar Hacker News

Jika uv sudah terpasang, ini bisa dijalankan pada file tanpa instalasi terpisah dengan perintah uvx markitdown path-to-file.pdf
- Saat pertama kali dijalankan, paket yang diperlukan akan di-cache, lalu pada eksekusi berikutnya paket cache tersebut digunakan kembali
- Setelah dicoba pada HTML dan PDF, performanya terlihat cukup baik
Pernah punya pengalaman mengembangkan fitur di perusahaan untuk mengubah file menjadi teks yang ramah LLM
- Setelah membaca source code-nya, implementasi ini tampak cukup masuk akal
- Sebaiknya jangan digunakan untuk gambar atau spreadsheet
- Untuk gambar, bisa langsung dikirim lewat penyedia LLM, dan spreadsheet lemah dalam interpretasi tabel Markdown
Banyak startup dan proyek open source membuat bidang ini jadi rumit, tetapi tujuan akhirnya adalah proyek sederhana yang mudah dipahami dan mudah di-deploy
Akan bagus jika ada fitur untuk mengatur "seberapa banyak pemrosesan yang diinginkan" dalam penanganan PDF
- Untuk ekstraksi teks dari PDF, biasanya perlu memakai heuristik yang sensitif terhadap cara PDF diekspor, atau memakai OCR sepenuhnya
- Tidak nyaman jika proyek terkunci hanya pada satu pendekatan
- Fitur speech-to-text kemungkinan memiliki karakteristik performa yang berbeda dari text-to-text, jadi tidak akan dipakai
Untuk penanganan PDF, mungkin lebih baik mengintegrasikan PDFMiner secara langsung
File .docx bisa diubah ke Markdown dan format file lain menggunakan Pandoc
- Pandoc tidak bisa mengonversi file PowerPoint dan Excel
Pernah mengindeks buku tabletop RPG dalam format PDF dengan layout visual yang rumit dan banyak tabel
- Jika ini hanya wrapper untuk PDFMiner, nilai tambah alat ini tidak terlihat
- Memang tidak mengenali atau memproses tabel, tetapi setidaknya ada pengenalan minimal untuk sel tabel
- Kolom dengan lebar variabel atau teks yang dibungkus dengan cara rumit ditangani dengan cukup baik
- Namun alat ini menyisipkan spasi yang tidak perlu pada teks yang sebenarnya sudah sejajar, dan menambahkan line break yang tidak perlu saat kolom terbelah di tengah kalimat
- Masalah terbesar adalah judul yang sama sekali terlewat
Agak tak terduga tetapi positif bahwa tidak ada penyebutan LLM di README
- Menarik untuk membaca kodenya
- Sebagian besar isinya adalah glue code dalam satu file berisi 1101 baris
Berbagi pengalaman saat mengumpulkan tugas lewat Slack di kelas bahasa online
- Tugas dikumpulkan sebagai file .md, tetapi guru tidak memahaminya
- Sejak saat itu tidak menyangka akan bertemu orang yang lebih menyukai dokumen Word
Penasaran dengan perbandingannya terhadap docling
- docling menggunakan LLM
Ingin tahu apakah ada library yang bagus untuk mengonversi dari Markdown ke PDF atau .docx
- Pandoc bisa untuk sebagian besar kasus, tetapi kesulitan pada item tertentu seperti tabel
Karena ini Microsoft, kemungkinan hasil dari Outlook HTML dan .docx setidaknya setengahnya cukup baik
- Sudah mengevaluasi sebagian besar solusi berbayar juga, tetapi belum ada yang dianggap cukup baik untuk dijalankan di production
- Akan mencoba alat ini

Microsoft MarkItDown - Alat Python untuk mengonversi file dan dokumen Office ke Markdown

Bacaan terkait

2 komentar

Komentar Hacker News