1 komentar

 
GN⁺ 2024-04-15
Komentar Hacker News

Singkatnya seperti berikut:

  • Saat mengembangkan alat untuk mengonversi halaman web menjadi Markdown, ada pertimbangan terkait pengelolaan beban dan keberlanjutan layanan gratis
  • Masalah penting saat mengonversi halaman web ke Markdown adalah sebagai berikut:
    1. Scraping konten halaman secara menyeluruh (recall tinggi)
    2. Menghapus iklan/konten pendukung (precision tinggi)
    3. Mengekstrak layout/jenis bagian yang benar (formatting)
  • Alat open source yang sudah ada (Trafilatura, Newspaper4k, python-readability, dll.) menunjukkan performa di atas tingkat tertentu. Menarik untuk mengetahui titik pembeda atau area peningkatannya
  • Untuk situs yang menampilkan pesan cookie, ada masalah di mana yang diparsing hanya konten terkait cookie alih-alih konten sebenarnya (contoh: cnbc.com)
  • Ide seperti mengunduh dan memfilter gambar dengan memanfaatkan GPT terasa bagus
  • Pengenalan alat serupa:
    • url2text.com: dapat mengekstrak HTML yang dirender dengan JS, metadata, screenshot, dan lain-lain sekaligus
    • firecrawl.dev: menyediakan fitur crawling seluruh situs, bukan hanya satu halaman
    • substack-ai.vercel.app: dioptimalkan untuk ekstraksi konten newsletter Substack
    • content-parser.com: mendukung berbagai format seperti Markdown, HTML, teks, PDF, dan lainnya
  • Fitur serupa juga bisa diwujudkan dengan alat konversi dokumen serbaguna seperti pandoc
  • Sebagian besar alat dikembangkan dengan memanfaatkan proyek readability milik Mozilla