Mengekstrak layout/jenis bagian yang benar (formatting)
Alat open source yang sudah ada (Trafilatura, Newspaper4k, python-readability, dll.) menunjukkan performa di atas tingkat tertentu. Menarik untuk mengetahui titik pembeda atau area peningkatannya
Untuk situs yang menampilkan pesan cookie, ada masalah di mana yang diparsing hanya konten terkait cookie alih-alih konten sebenarnya (contoh: cnbc.com)
Ide seperti mengunduh dan memfilter gambar dengan memanfaatkan GPT terasa bagus
Pengenalan alat serupa:
url2text.com: dapat mengekstrak HTML yang dirender dengan JS, metadata, screenshot, dan lain-lain sekaligus
firecrawl.dev: menyediakan fitur crawling seluruh situs, bukan hanya satu halaman
substack-ai.vercel.app: dioptimalkan untuk ekstraksi konten newsletter Substack
content-parser.com: mendukung berbagai format seperti Markdown, HTML, teks, PDF, dan lainnya
Fitur serupa juga bisa diwujudkan dengan alat konversi dokumen serbaguna seperti pandoc
Sebagian besar alat dikembangkan dengan memanfaatkan proyek readability milik Mozilla
1 komentar
Komentar Hacker News
Singkatnya seperti berikut:
Trafilatura,Newspaper4k,python-readability, dll.) menunjukkan performa di atas tingkat tertentu. Menarik untuk mengetahui titik pembeda atau area peningkatannyacnbc.com)url2text.com: dapat mengekstrak HTML yang dirender dengan JS, metadata, screenshot, dan lain-lain sekaligusfirecrawl.dev: menyediakan fitur crawling seluruh situs, bukan hanya satu halamansubstack-ai.vercel.app: dioptimalkan untuk ekstraksi konten newsletter Substackcontent-parser.com: mendukung berbagai format seperti Markdown, HTML, teks, PDF, dan lainnyapandocreadabilitymilik Mozilla