Kondisi Web Scraping pada 2021
(mihaisplace.blog)-
Apa itu web scraping?
-
Framework utama untuk web scraping?
→ Python: Scrapy, Beautiful Soup, MechanicalSoup
→ JS: Cheerio, Puppeteer, Apify SDK
→ Java: Jaunt, jsoup
→ Ruby: Kimurai
→ PHP: Goutte
- Framework web scraping berbayar tingkat enterprise
→ Scraper API: mendukung rotasi proxy, pemecahan CAPTCHA, dan pemeriksaan anti-bot
→ Apify: menyediakan ribuan plugin yang dikembangkan oleh komunitas
→ Parsehub: alat no-code point-and-click berbasis aplikasi desktop
→ Diffbot: mendukung ekstraksi data melalui big data/machine learning dari data perusahaan/ritel/berita/forum/acara yang dikumpulkan dari web
→ Octoparse: seperti Parsehub, menggunakan metode point-and-click. Mendukung rotasi IP, pembersihan data dengan alat regex, dan scraping skala besar
→ ScrapingBee: alat no-code yang menyediakan fitur kompleks
-
Contoh web scraping Python: menggunakan Beautiful Soup
-
Contoh JavaScript (Node.js): pencarian Google dengan Puppeteer
-
Do's and Don'ts of Web Scraping
→ Gunakan hanya satu koneksi IP
→ Lakukan crawling di luar jam sibuk
→ Patuhi ToS situs
→ Patuhi aturan di robots.txt
→ Jika melakukan crawling untuk menampilkan konten dengan cara lain, buat solusi yang unik, bukan sekadar salinan sederhana
→ Patuhi aturan GDPR / CCPA
1 komentar
Lihat juga artikel “Web scraping is now legal” di bagian bawah tulisan ini.
Ini adalah kasus ketika Linkedin meminta agar perusahaan analitik HiQ dilarang melakukan crawling, tetapi ditolak oleh pengadilan AS.
https://medium.com/@tjwaterman99/…