Kondisi Web Scraping pada 2021

(mihaisplace.blog)

26 poin oleh xguru 2021-10-05 | 1 komentar | Bagikan ke WhatsApp

→ Python: Scrapy, Beautiful Soup, MechanicalSoup

→ JS: Cheerio, Puppeteer, Apify SDK

→ Java: Jaunt, jsoup

→ Ruby: Kimurai

→ PHP: Goutte

→ Scraper API: mendukung rotasi proxy, pemecahan CAPTCHA, dan pemeriksaan anti-bot

→ Apify: menyediakan ribuan plugin yang dikembangkan oleh komunitas

→ Parsehub: alat no-code point-and-click berbasis aplikasi desktop

→ Diffbot: mendukung ekstraksi data melalui big data/machine learning dari data perusahaan/ritel/berita/forum/acara yang dikumpulkan dari web

→ Octoparse: seperti Parsehub, menggunakan metode point-and-click. Mendukung rotasi IP, pembersihan data dengan alat regex, dan scraping skala besar

→ ScrapingBee: alat no-code yang menyediakan fitur kompleks

→ Gunakan hanya satu koneksi IP

→ Lakukan crawling di luar jam sibuk

→ Patuhi ToS situs

→ Patuhi aturan di robots.txt

→ Jika melakukan crawling untuk menampilkan konten dengan cara lain, buat solusi yang unik, bukan sekadar salinan sederhana

→ Patuhi aturan GDPR / CCPA

1 komentar

xguru 2021-10-05

Lihat juga artikel “Web scraping is now legal” di bagian bawah tulisan ini.

Ini adalah kasus ketika Linkedin meminta agar perusahaan analitik HiQ dilarang melakukan crawling, tetapi ditolak oleh pengadilan AS.