- Alat yang mengubah situs web dengan cepat dan ringan ke format Markdown dan llms.txt, untuk mendukung pembuatan konteks LLM yang dapat ditelusuri AI
- Konverter HTML→Markdown tradisional tidak dirancang untuk LLM, sehingga memakai lebih banyak token dan juga lebih lambat
- Inti
mdream adalah konverter HTML→Markdown yang dioptimalkan untuk LLM yang menghasilkan keluaran teroptimasi dengan sekitar 50% lebih sedikit token, serta mampu melakukan konversi supercepat 1.4MB HTML dalam sekitar 50ms
- Library berukuran 5kB gzip tanpa dependensi eksternal
- Dengan paket
@mdream/crawl, seluruh situs dapat di-crawl untuk membuat llms.txt, llms-full.txt, dan file Markdown individual, serta dapat diintegrasikan dengan alat AI seperti Claude Code
- Dapat dijalankan di berbagai lingkungan seperti CLI, Docker, GitHub Actions, Vite, Nuxt, dan lainnya
- Dengan sistem plugin, hook pipeline memungkinkan penambahan pemfilteran konten, transformasi node, dan perilaku kustom lainnya
- extractionPlugin: Mengekstrak elemen tertentu menggunakan selektor CSS untuk dimanfaatkan dalam analisis data
- filterPlugin: Dapat menyertakan/mengecualikan elemen berdasarkan selektor CSS atau ID tag
- frontmatterPlugin: Membuat YAML frontmatter dari informasi HTML head (
title, meta, dll.)
- isolateMainPlugin: Mengekstrak hanya konten utama dari elemen
<main> atau rentang header~footer
- tailwindPlugin: Mengubah kelas Tailwind CSS menjadi format Markdown (tebal, miring, dll.)
- readabilityPlugin: Memberi skor keterbacaan konten dan mengekstraknya (fitur eksperimental)
1 komentar
Saya sudah mencobanya, tetapi muncul error dan tidak berfungsi dengan semestinya. Saya sudah menulis postingan di issue Eldan.