Scrapling - framework web scraping adaptif

(github.com/D4Vinci)

52 poin oleh xguru 2026-03-10 | 3 komentar | Bagikan ke WhatsApp

Menangani dari satu permintaan hingga crawling skala besar sambil melewati struktur kompleks web modern dan sistem anti-bot
Dilengkapi parser cerdas yang secara otomatis mencari ulang elemen saat struktur situs web berubah
Dilengkapi modul Fetcher yang secara bawaan dapat melewati sistem keamanan utama seperti Cloudflare Turnstile
Mendukung fitur crawling skala besar melalui framework Spider, termasuk konkurensi, manajemen sesi, jeda/lanjut, dan rotasi proxy
- API mirip Scrapy: memanfaatkan start_urls, callback parse asinkron, serta objek Request/Response
- Crawling paralel dan isolasi sesi: beberapa sesi browser dapat dijalankan secara paralel
- Fitur jeda dan lanjut berbasis checkpoint: stabil bahkan untuk crawling berdurasi panjang
- Mode streaming real-time: data yang dikumpulkan dapat langsung diproses atau ditampilkan ke UI
- Secara otomatis mendeteksi permintaan yang diblokir, dan dapat mencoba ulang dengan logika kustom
- Menggunakan hook untuk mengekspor hasil ke pipeline sendiri (JSON/JSONL)
Fetching situs web tingkat lanjut dengan dukungan sesi
- Kelas Fetcher mendukung fitur permintaan lanjutan seperti HTTP/3, pemalsuan sidik jari TLS, dan penyamaran header
- Melalui DynamicFetcher, dapat menjalankan otomasi browser berbasis Playwright/Chrome
- StealthyFetcher secara otomatis melewati pertahanan anti-bot seperti Cloudflare Turnstile
- Dengan ProxyRotator, proxy dapat diganti per permintaan dan kontrol pemblokiran domain dimungkinkan
- Semua Fetcher bekerja secara asinkron (async) dan menyediakan kelas sesi (FetcherSession, DynamicSession, dll.)
Dengan adaptive scraping, elemen dapat dicari ulang secara otomatis bahkan setelah situs web berubah
- Algoritme pelacakan elemen berbasis kemiripan: memungkinkan pengambilan data yang tahan terhadap perubahan struktur
- Mendukung semua selector berbasis CSS/XPath/teks/regular expression
- Dilengkapi server MCP untuk integrasi AI: terhubung dengan Claude, Cursor, dan lainnya untuk ekstraksi data berbantuan AI
  - Sebelum pemanggilan AI, Scrapling menyaring konten target terlebih dahulu untuk mengurangi penggunaan token dan meningkatkan kecepatan
Arsitektur berkinerja tinggi
- Menawarkan kecepatan pemrosesan yang lebih tinggi dibanding sebagian besar library scraping Python
- Eksekusi lebih ringan berkat struktur yang efisien dalam memori dan lazy loading
- Kecepatan serialisasi JSON meningkat 10x, cakupan pengujian 92%, dan static type hints yang lengkap
- Sudah battle-tested di berbagai komunitas web scraper
Memberikan pengalaman yang ramah bagi developer/web scraper
- Dilengkapi Web Scraping Shell interaktif: mendukung eksplorasi real-time berbasis IPython dan konversi permintaan
- Melalui perintah CLI, URL dapat di-scrape dan file dapat diekstrak tanpa menulis kode
- Menyediakan API penelusuran DOM untuk menelusuri relasi induk/saudara/anak serta pencarian elemen serupa
- Generator selector otomatis membuat selector CSS/XPath yang stabil secara otomatis
- API mirip Scrapy/BeautifulSoup: memberi pengalaman pengembangan yang familier bagi pengguna lama
- Analisis statis berbasis PyRight/MyPy dan build image Docker otomatis juga meningkatkan kemudahan deployment
Benchmark performa
- Parser Scrapling sedikit lebih cepat daripada Parsel/Scrapy,
  dan mencatat kecepatan pemrosesan hingga lebih dari 700x lebih cepat dibanding BeautifulSoup4 (bs4)
- Performa pencarian kemiripan elemen juga mencapai hasil lebih dari 5x lebih cepat dibanding AutoScraper
Dapat diinstal dengan pip install scrapling, atau
menyediakan image Docker untuk menyiapkan lingkungan eksekusi lengkap termasuk browser: docker pull pyd4vinci/scrapling
Lisensi BSD-3-Clause

3 komentar

eyelove 2026-03-11

Apakah secara hukum tidak bermasalah??? Saya sempat melihat bahwa mengambil informasi online disebut tidak bermasalah..
Saya penasaran apakah tidak akan menimbulkan masalah jika membaca dengan melewati pembatasan yang dipasang situs agar crawling tidak bisa dilakukan.

Apakah yang berisiko hanya konten yang dilihat setelah login?

crawler 2026-03-10

> with FetcherSession(impersonate='chrome') as session: # Use latest version of Chrome's TLS fingerprint

Menarik juga, biasanya saya selalu mencari lalu memasukkannya secara manual, ini pertama kalinya saya melihat library seperti ini. Sepertinya akan praktis.

crawler 2026-03-10

Namun, saya penasaran bagaimana cara mereka melewati Cloudflare. Sepertinya saya harus melihat kodenya dulu untuk memahaminya.

Scrapling - framework web scraping adaptif

Bacaan terkait

3 komentar