- Framework web scraping berperforma tinggi yang mengimplementasikan arsitektur Scrapy Python secara native dengan memanfaatkan performa bahasa Go
- Hanya dengan satu perintah
goscrapy startproject, scaffolding otomatis mencakup struktur proyek, inisialisasi modul Go, hingga penyelesaian dependensi
- Scraping paralel berthroughput tinggi berbasis model konkurensi Go, dengan framework yang otomatis mengelola retry, manajemen cookie, dan pemrosesan konkurensi
- Retry otomatis dengan exponential back-off saat terjadi kegagalan
- Arsitektur alur data yang jelas dari Spider → Engine → Scheduler → Worker → Middleware → HTTP Client
- Spider meneruskan request ke Engine, lalu Engine menjadwalkannya ke Scheduler
- Scheduler mengamankan worker yang tersedia dari Worker Queue, lalu meneruskan tugas ke Worker
- Worker memicu Executor, dan Executor mengirim request ke HTTP Client melalui Middlewares
- Response dikembalikan dalam urutan terbalik melalui Middlewares → Executor → callback Spider
- Saat Spider me-yield record, Engine mengekspor data ke DB, CSV, file, dan lainnya melalui PipelineManager
- Beragam pipeline ekspor sudah tersedia secara bawaan, termasuk CSV, JSON, MongoDB, Google Sheets, Firebase
- Menyediakan middleware bawaan seperti Azure TLS dan Dupefilter, dengan desain yang memungkinkan hampir semua lapisan diganti atau diperluas
- Parsing HTML yang fleksibel dengan selector CSS/XPath yang dapat di-chain
- Struktur yang rapi: middleware dan pipeline dikonfigurasi secara terpusat di
settings.go, sementara spider.go fokus hanya pada logika parsing
- Menyediakan contoh praktis seperti scraper Google Maps, Fingerprint Spoofing (melewati deteksi bot), dan pemantauan real-time berbasis TUI
- Saat ini masih dalam tahap pengembangan v0.x, dengan Core API yang terus disempurnakan menuju v1.0 yang stabil
- Business Source License (BSL): bebas digunakan dalam produk komersial, tetapi penjualan ulang framework itu sendiri sebagai layanan pesaing dibatasi
Belum ada komentar.