9 poin oleh GN⁺ 2024-11-10 | 1 komentar | Bagikan ke WhatsApp
  • Alat yang andal untuk mengubah HTML menjadi Markdown yang bersih dan mudah dibaca
  • Mendukung format yang kompleks, serta memungkinkan kontrol penuh atas proses konversi melalui opsi kustom dan plugin
  • Dapat digunakan melalui pustaka Golang atau perintah CLI, atau dicoba langsung lewat demo online maupun REST API

Fitur utama

  • Bold & Italic: Mendukung teks tebal dan miring bahkan di dalam kata
  • List: Mendukung nesting daftar berurutan dan tidak berurutan secara sempurna
  • Blockquote: Dapat memuat elemen lain di dalam kutipan, serta mendukung kutipan bertingkat dengan mulus
  • Inline Code & Code Block: Menangani backtick dan blok kode multi-baris dengan benar untuk mempertahankan struktur kode
  • Link & Image: Memformat tautan multi-baris dengan benar, dan menambahkan escape untuk baris kosong
  • Smart Escaping: Melakukan escape karakter khusus hanya saat diperlukan untuk mencegah rendering Markdown yang tidak diinginkan
  • Remove/Keep HTML: Memberikan opsi untuk menghapus atau mempertahankan tag HTML tertentu
  • Plugin: Dapat dengan mudah memperluas plugin, atau membuat plugin kustom untuk meningkatkan fungsionalitas
    • Jika memerlukan logika kustom, Anda dapat menulis dan mendaftarkan kodenya
    • Jika tidak menyukai pengaturan default, Anda dapat menggunakan PriorityEarly agar logika dijalankan lebih dulu daripada yang lain
  • Converter dapat digunakan di beberapa goroutine dan menggunakan mutex secara internal

1 komentar

 
GN⁺ 2024-11-10
Komentar Hacker News
  • Dengan API gratis dari Jina.ai, Anda bisa mengambil URL dan mendapatkan dokumen Markdown tanpa autentikasi atau API key

    • Beberapa situs web tidak bisa diproses, tetapi dalam kebanyakan kasus bisa menyelesaikan 90% pekerjaan
    • HTML dapat dikonversi ke Markdown menggunakan Pandoc
  • Penasaran apakah alat berlisensi MIT ini bisa menjadi alternatif untuk p2k, Instapaper, dan sejenisnya agar bisa dibaca di Kindle

    • Layanan seperti itu sering memiliki render yang kurang akurat dan meminta biaya langganan
    • Jika proyek ini dipelihara secara aktif, saya bisa mengujinya dengan berbagai artikel dan melaporkan masalah
  • Saya menggunakan library ini di fungsi Lambda untuk mengubah URL menjadi Markdown lalu menyimpannya ke S3

    • Saya menghubungkannya sebagai webhook ke semua aplikasi bookmark agar semua yang saya tandai tersimpan sebagai Markdown
    • Praktis untuk diimpor ke Obsidian
  • Berguna untuk memberikan data halaman web ke LLM

    • Saya pernah membuat alat serupa untuk ekosistem Elixir, tetapi terbatas
    • Saya mungkin bisa meminjam idenya
  • Akan bagus jika alat ini memiliki fitur deduplikasi n-gram

    • Diperlukan fungsi untuk menghapus konten yang sama di header dan footer
  • Dengan Urlbox, Anda bisa mendapatkan screenshot halaman web yang akurat sekaligus Markdown

    • Fitur ini bisa digunakan dengan alat gratis
  • Berguna untuk membangun aplikasi LLM dan AI menggunakan RedditToMarkdown dan urltomarkdown.com

  • Saya sedang mencari library serupa untuk digunakan di aplikasi Kotlin/Spring

    • Saat mengonversi HTML ke Markdown, string dokumen HTML sudah dibersihkan terlebih dahulu
  • Salah satu kesulitan saat menggunakan alat ini adalah menangani code block dengan syntax highlighting

    • Saya penasaran bagaimana html-to-markdown bekerja dalam skenario seperti ini