1 poin oleh nsjokt 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Saat beberapa kali membuat crawler, ada satu hal yang selalu mengganjal. Kebanyakan hanya mengambil data sekali lalu selesai, sehingga hal yang sebenarnya ingin diketahui—“apa yang berbeda dibanding kemarin” (penurunan harga, produk baru, perubahan peringkat, perubahan ulasan)—setiap kali harus saya buka lagi sendiri dan bandingkan manual.

web_harvester berfokus pada memberi tahu “perubahan” itu dengan terus berjalan saat dibiarkan aktif. Karena item yang sama diakumulasikan per tanggal ke Google Sheets/CSV/Excel/SQL, yang tersisa bukan hanya satu baris, melainkan tren. Lalu jika ada perubahan yang bermakna, notifikasi langsung masuk lewat webhook Slack/Discord atau email. Interval pengumpulan bisa diatur sendiri, dan bawaannya dibuat berfrekuensi rendah.

Sisi no-code juga saya perhatikan. Pencarian field otomatis menemukan dan menampilkan kandidat nilai (nama, harga, dan sebagainya) di halaman; cukup dicentang, lalu langsung dipetakan tanpa perlu coding sama sekali.

Bagian yang secara teknis paling menarik adalah engine recon. Apakah situs ini punya JSON-LD, apakah semuanya ada di NEXT_DATA, atau pada akhirnya harus mengambil dari DOM? Karena bosan setiap kali membuka Developer Tools dan mengeceknya manual, saya mencoba memindahkan keputusan itu ke kode. Dengan menerima satu halaman sampel, engine ini mendiagnosis otomatis dalam 5 mode (JSON-LD · variabel window (NEXT_DATA dan sebagainya) · pengulangan DOM · Google af-data/af-one), lalu memilih jalur ekstraksi yang paling murah dan lebih tahan terhadap perubahan UI. Untuk situs SSR atau situs yang JSON-nya tertanam di dokumen, prosesnya ringan di sisi server; untuk halaman dinamis atau login, halaman diambil lewat sesi Chrome milik pengguna sendiri (browser sungguhan) lalu dijalankan pada kode ekstraksi yang sama. Core ekstraksi (pemetaan field, konversi tipe, ekstraksi item) saya kunci dengan unit test offline, sehingga refactoring tidak terlalu menakutkan.

Prinsip desainnya sudah saya tetapkan jelas sejak awal: data publik · izin/sesi milik sendiri · frekuensi rendah · menghormati robots. Tidak ada bypass captcha/proxy.

Bentuknya adalah hibrida ekstensi Chrome MV3 + CLI Python. Karena saya membuat dan mengoperasikannya sendiri, mungkin masih ada bagian yang kasar; saya akan sangat berterima kasih jika Anda mencobanya langsung dan memberi masukan seperti “akan lebih baik jika hasil diagnosis recon atau notifikasi perubahan seperti ini juga ada”.

Instal gratis (Chrome Web Store) untuk langsung mencoba — harvesting, pencarian field, dan ekspor CSV/Sheets gratis (Basic): https://chromewebstore.google.com/detail/…
Penjadwalan tanpa operator dan notifikasi perubahan tersedia di Pro (sekali bayar · diskon peluncuran 20% otomatis diterapkan): https://joktnova.gumroad.com/l/figvr/LAUNCH20

Data publik · izin sendiri · frekuensi rendah · menghormati robots · tanpa bypass captcha/proxy.

Belum ada komentar.

Belum ada komentar.