Per 2022, apa alat web scraping terbaik?
(news.ycombinator.com)Jawaban-jawaban untuk pertanyaan di HN
- Playwright : karena semakin banyak halaman web yang membutuhkan eksekusi JS, alat otomasi browser jadi praktis
- Beautiful Soup : paket Python yang memudahkan pembuatan berbagai aplikasi scraping
- Di shell, cURL + pup(markup)/cskit(CSV)/jq(JSON)/psql(DB)
- Browserflow : alat otomasi pekerjaan berbasis peramban web
- curl-impersonate : versi fork untuk mengambil situs web seperti browser
- Helium : Selenium-Python yang lebih mudah digunakan
- undetected_chromedriver : Selenium Chromedriver kustom yang lolos pemeriksaan bot CloudFlare
- estela : cluster web scraping elastis yang berjalan di Kubernetes
6 komentar
Saya dengar setelah tim puppeteer diakuisisi oleh ms, jadinya langsung menjadi playwright.
Tool seperti Playwright dan Scrapy tampaknya bagus karena dipelihara dengan baik oleh pihak pengembangnya.
Secara pribadi, saya cukup sering menggunakan plugin
scrapy-playwright.Karena tidak terlihat Peppeteer, sepertinya banyak yang sudah beralih ke Playwright.
Di komentar juga, kebanyakan orang yang benar-benar sudah mencobanya mengatakan bahwa Playwright bagus.
Saya pilih Playwright.
Saya sering menggunakan HTMLRewriter dari Cloudflare