20 poin oleh xguru 2024-05-10 | 1 komentar | Bagikan ke WhatsApp
  • Pustaka open source Python untuk web scraping berbasis AI
    • Membuat pipeline scraping untuk situs web, dokumen, dan file XML dengan menggunakan LLM dan logika graf langsung
  • Cukup tentukan informasi apa yang ingin diekstrak, lalu pustaka ini akan bekerja secara otomatis
  • Mendukung berbagai model seperti Ollama, OpenAI, Groq, Azure, Gemini, dan lainnya
  • Node yang disediakan
    • Base node, HTML fetch node, Image_to_text node, Text-To-Speech node, internet search node
    • Conditional node: menentukan node berikutnya dalam graf
    • Answer generation node: menghasilkan jawaban atas pertanyaan dengan menggunakan LLM
    • generate_scraper node: mengekstrak informasi yang diinginkan dari konten sesuai masukan pengguna
    • Get_probable_tags node: mencari tag HTML yang berisi informasi yang diinginkan dalam konten
    • Parse node: mengekstrak informasi dari dokumen HTML
    • Rag node: mengekstrak informasi relevan dari dokumen berukuran besar
    • Robots node: memeriksa apakah akses robot diizinkan

1 komentar

 
ng0301 2024-05-13

Rasanya agak mengecewakan karena sepertinya tidak terlalu bagus dalam melakukan scraping untuk web app CSR.
Sebaliknya, untuk SSR saya cukup puas.