31 poin oleh GN⁺ 2024-12-14 | 2 komentar | Bagikan ke WhatsApp
  • Alat utilitas untuk mengonversi berbagai file ke Markdown
  • Format yang didukung:
    • PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
    • Gambar (metadata EXIF dan OCR), audio (metadata EXIF dan transkripsi suara)
    • HTML (terutama penanganan khusus untuk Wikipedia, dll.) serta berbagai format berbasis teks lainnya (csv, json, xml, dll.)
  • Cara penggunaan API sederhana:
    from markitdown import MarkItDown  
    markitdown = MarkItDown()  
    result = markitdown.convert("test.xlsx")  
    print(result.text_content)  
    

2 komentar

 
kandk 2024-12-16

Oh, sepertinya bahkan di internal Microsoft juga sedang berusaha menjadikannya open source, ya?

 
GN⁺ 2024-12-14
Komentar Hacker News
  • Jika uv sudah terpasang, ini bisa dijalankan pada file tanpa instalasi terpisah dengan perintah uvx markitdown path-to-file.pdf

    • Saat pertama kali dijalankan, paket yang diperlukan akan di-cache, lalu pada eksekusi berikutnya paket cache tersebut digunakan kembali
    • Setelah dicoba pada HTML dan PDF, performanya terlihat cukup baik
  • Pernah punya pengalaman mengembangkan fitur di perusahaan untuk mengubah file menjadi teks yang ramah LLM

    • Setelah membaca source code-nya, implementasi ini tampak cukup masuk akal
    • Sebaiknya jangan digunakan untuk gambar atau spreadsheet
    • Untuk gambar, bisa langsung dikirim lewat penyedia LLM, dan spreadsheet lemah dalam interpretasi tabel Markdown
  • Banyak startup dan proyek open source membuat bidang ini jadi rumit, tetapi tujuan akhirnya adalah proyek sederhana yang mudah dipahami dan mudah di-deploy

  • Akan bagus jika ada fitur untuk mengatur "seberapa banyak pemrosesan yang diinginkan" dalam penanganan PDF

    • Untuk ekstraksi teks dari PDF, biasanya perlu memakai heuristik yang sensitif terhadap cara PDF diekspor, atau memakai OCR sepenuhnya
    • Tidak nyaman jika proyek terkunci hanya pada satu pendekatan
    • Fitur speech-to-text kemungkinan memiliki karakteristik performa yang berbeda dari text-to-text, jadi tidak akan dipakai
  • Untuk penanganan PDF, mungkin lebih baik mengintegrasikan PDFMiner secara langsung

  • File .docx bisa diubah ke Markdown dan format file lain menggunakan Pandoc

    • Pandoc tidak bisa mengonversi file PowerPoint dan Excel
  • Pernah mengindeks buku tabletop RPG dalam format PDF dengan layout visual yang rumit dan banyak tabel

    • Jika ini hanya wrapper untuk PDFMiner, nilai tambah alat ini tidak terlihat
    • Memang tidak mengenali atau memproses tabel, tetapi setidaknya ada pengenalan minimal untuk sel tabel
    • Kolom dengan lebar variabel atau teks yang dibungkus dengan cara rumit ditangani dengan cukup baik
    • Namun alat ini menyisipkan spasi yang tidak perlu pada teks yang sebenarnya sudah sejajar, dan menambahkan line break yang tidak perlu saat kolom terbelah di tengah kalimat
    • Masalah terbesar adalah judul yang sama sekali terlewat
  • Agak tak terduga tetapi positif bahwa tidak ada penyebutan LLM di README

    • Menarik untuk membaca kodenya
    • Sebagian besar isinya adalah glue code dalam satu file berisi 1101 baris
  • Berbagi pengalaman saat mengumpulkan tugas lewat Slack di kelas bahasa online

    • Tugas dikumpulkan sebagai file .md, tetapi guru tidak memahaminya
    • Sejak saat itu tidak menyangka akan bertemu orang yang lebih menyukai dokumen Word
  • Penasaran dengan perbandingannya terhadap docling

    • docling menggunakan LLM
  • Ingin tahu apakah ada library yang bagus untuk mengonversi dari Markdown ke PDF atau .docx

    • Pandoc bisa untuk sebagian besar kasus, tetapi kesulitan pada item tertentu seperti tabel
  • Karena ini Microsoft, kemungkinan hasil dari Outlook HTML dan .docx setidaknya setengahnya cukup baik

    • Sudah mengevaluasi sebagian besar solusi berbayar juga, tetapi belum ada yang dianggap cukup baik untuk dijalankan di production
    • Akan mencoba alat ini