- Menangani dari satu permintaan hingga crawling skala besar sambil melewati struktur kompleks web modern dan sistem anti-bot
- Dilengkapi parser cerdas yang secara otomatis mencari ulang elemen saat struktur situs web berubah
- Dilengkapi modul Fetcher yang secara bawaan dapat melewati sistem keamanan utama seperti Cloudflare Turnstile
- Mendukung fitur crawling skala besar melalui framework Spider, termasuk konkurensi, manajemen sesi, jeda/lanjut, dan rotasi proxy
- API mirip Scrapy: memanfaatkan
start_urls, callback parse asinkron, serta objek Request/Response
- Crawling paralel dan isolasi sesi: beberapa sesi browser dapat dijalankan secara paralel
- Fitur jeda dan lanjut berbasis checkpoint: stabil bahkan untuk crawling berdurasi panjang
- Mode streaming real-time: data yang dikumpulkan dapat langsung diproses atau ditampilkan ke UI
- Secara otomatis mendeteksi permintaan yang diblokir, dan dapat mencoba ulang dengan logika kustom
- Menggunakan hook untuk mengekspor hasil ke pipeline sendiri (JSON/JSONL)
- Fetching situs web tingkat lanjut dengan dukungan sesi
- Kelas Fetcher mendukung fitur permintaan lanjutan seperti HTTP/3, pemalsuan sidik jari TLS, dan penyamaran header
- Melalui DynamicFetcher, dapat menjalankan otomasi browser berbasis Playwright/Chrome
- StealthyFetcher secara otomatis melewati pertahanan anti-bot seperti Cloudflare Turnstile
- Dengan ProxyRotator, proxy dapat diganti per permintaan dan kontrol pemblokiran domain dimungkinkan
- Semua Fetcher bekerja secara asinkron (async) dan menyediakan kelas sesi (
FetcherSession, DynamicSession, dll.)
- Dengan adaptive scraping, elemen dapat dicari ulang secara otomatis bahkan setelah situs web berubah
- Algoritme pelacakan elemen berbasis kemiripan: memungkinkan pengambilan data yang tahan terhadap perubahan struktur
- Mendukung semua selector berbasis CSS/XPath/teks/regular expression
- Dilengkapi server MCP untuk integrasi AI: terhubung dengan Claude, Cursor, dan lainnya untuk ekstraksi data berbantuan AI
- Sebelum pemanggilan AI, Scrapling menyaring konten target terlebih dahulu untuk mengurangi penggunaan token dan meningkatkan kecepatan
- Arsitektur berkinerja tinggi
- Menawarkan kecepatan pemrosesan yang lebih tinggi dibanding sebagian besar library scraping Python
- Eksekusi lebih ringan berkat struktur yang efisien dalam memori dan lazy loading
- Kecepatan serialisasi JSON meningkat 10x, cakupan pengujian 92%, dan static type hints yang lengkap
- Sudah battle-tested di berbagai komunitas web scraper
- Memberikan pengalaman yang ramah bagi developer/web scraper
- Dilengkapi Web Scraping Shell interaktif: mendukung eksplorasi real-time berbasis IPython dan konversi permintaan
- Melalui perintah CLI, URL dapat di-scrape dan file dapat diekstrak tanpa menulis kode
- Menyediakan API penelusuran DOM untuk menelusuri relasi induk/saudara/anak serta pencarian elemen serupa
- Generator selector otomatis membuat selector CSS/XPath yang stabil secara otomatis
- API mirip Scrapy/BeautifulSoup: memberi pengalaman pengembangan yang familier bagi pengguna lama
- Analisis statis berbasis PyRight/MyPy dan build image Docker otomatis juga meningkatkan kemudahan deployment
- Benchmark performa
- Parser Scrapling sedikit lebih cepat daripada Parsel/Scrapy,
dan mencatat kecepatan pemrosesan hingga lebih dari 700x lebih cepat dibanding BeautifulSoup4 (bs4)
- Performa pencarian kemiripan elemen juga mencapai hasil lebih dari 5x lebih cepat dibanding AutoScraper
- Dapat diinstal dengan
pip install scrapling, atau
menyediakan image Docker untuk menyiapkan lingkungan eksekusi lengkap termasuk browser: docker pull pyd4vinci/scrapling
- Lisensi BSD-3-Clause
3 komentar
Apakah secara hukum tidak bermasalah??? Saya sempat melihat bahwa mengambil informasi online disebut tidak bermasalah..
Saya penasaran apakah tidak akan menimbulkan masalah jika membaca dengan melewati pembatasan yang dipasang situs agar crawling tidak bisa dilakukan.
Apakah yang berisiko hanya konten yang dilihat setelah login?
> with FetcherSession(impersonate='chrome') as session: # Use latest version of Chrome's TLS fingerprint
Menarik juga, biasanya saya selalu mencari lalu memasukkannya secara manual, ini pertama kalinya saya melihat library seperti ini. Sepertinya akan praktis.
Namun, saya penasaran bagaimana cara mereka melewati Cloudflare. Sepertinya saya harus melihat kodenya dulu untuk memahaminya.