- Pustaka open source Python untuk web scraping berbasis AI
- Membuat pipeline scraping untuk situs web, dokumen, dan file XML dengan menggunakan LLM dan logika graf langsung
- Cukup tentukan informasi apa yang ingin diekstrak, lalu pustaka ini akan bekerja secara otomatis
- Mendukung berbagai model seperti Ollama, OpenAI, Groq, Azure, Gemini, dan lainnya
- Node yang disediakan
- Base node, HTML fetch node, Image_to_text node, Text-To-Speech node, internet search node
- Conditional node: menentukan node berikutnya dalam graf
- Answer generation node: menghasilkan jawaban atas pertanyaan dengan menggunakan LLM
generate_scraper node: mengekstrak informasi yang diinginkan dari konten sesuai masukan pengguna
Get_probable_tags node: mencari tag HTML yang berisi informasi yang diinginkan dalam konten
- Parse node: mengekstrak informasi dari dokumen HTML
- Rag node: mengekstrak informasi relevan dari dokumen berukuran besar
- Robots node: memeriksa apakah akses robot diizinkan
1 komentar
Rasanya agak mengecewakan karena sepertinya tidak terlalu bagus dalam melakukan scraping untuk web app CSR.
Sebaliknya, untuk SSR saya cukup puas.