Jika Anda Ingin Melakukan Web Scraping Seperti Perusahaan Besar (2021)
(incolumitas.com)Here is a summary of the key points from the article in Korean, formatted as a markdown bullet list:
Membangun Infrastruktur Scraping Skala Besar
- Menjalankan Headless Chrome di AWS Lambda untuk melakukan scraping jutaan Google SERP per minggu
- Dengan memanggil fungsi Lambda 3 kali, Anda bisa mendapatkan public IP baru
- Jika 1000 fungsi Lambda dipanggil secara bersamaan, sekitar 250 public IP dapat digunakan
- Dengan menggunakan 16 region, sekitar 4000 alamat public IP dapat digunakan
- Namun metode ini hanya bekerja pada situs seperti Google, Bing, dan Amazon. Ini tidak berfungsi pada situs yang menggunakan solusi anti-bot seperti DataDome, Akamai, dan Imperva
- Solusi anti-bot menggunakan berbagai teknik seperti browser fingerprinting, pendeteksian kebohongan, dan deteksi perilaku yang berbeda dari manusia
- Alasan sulit menghindari deteksi bot adalah karena kebanyakan dijalankan di cloud dengan Docker atau Kubernetes
Usulan Infrastruktur Scraping yang Skalabel dan Sulit Terdeteksi
- Membeli 500 perangkat Android murah dari 5 produsen
- Menggunakan paket data murah, mengontrol perangkat dengan DeviceFarmer/stf
- Menempatkan masing-masing 100 perangkat di 5 kota besar seperti London, Paris, Boston, Frankfurt, dan LA
- Menginstal Android Go ringan, lalu menyalakan dan mematikan mode pesawat setiap 5 menit untuk mengganti alamat IP
- Mobile IP 4G/5G/LTE tidak bisa diblokir. Karena banyak pengguna berbagi, bahkan Instagram pun tidak bisa memblokir 200 ribu orang di LA
- Perlu memanipulasi event seperti orientasi dan pergerakan perangkat pada level kernel
Perbaikan: Emulasi Android
- Menggunakan emulator seperti Android-x86 on VirtualBox, Bluestacks, dan Android Studio
- Namun ada banyak teknik pendeteksian emulasi (redpill berbasis browser, pemindaian port adb, deteksi advertising ID, deteksi social login, dll.)
- Menghubungkan dongle 4G ke server agar bisa digunakan langsung dari emulator Android
- Menempatkan masing-masing 1 server scraping bertenaga yang terhubung ke 50 dongle di 5 kota besar
- Menjalankan 50~100 emulator Android di setiap server
- Mengoordinasikan 5 stasiun scraping dengan server kontrol perintah sederhana
Pendapat GN⁺
- Menggunakan perangkat fisik tampak memiliki biaya pengelolaan yang tinggi dan keterbatasan skalabilitas. Menggunakan emulator tampaknya menjadi alternatif yang realistis.
- Namun, teknologi pendeteksian emulator juga terus berkembang, sehingga tampaknya tidak aman hanya dengan menggunakan emulator saja. Pembaruan dan perbaikan berkelanjutan akan diperlukan.
- Menggunakan mobile IP 4G/5G adalah ide yang bagus. Namun, kemungkinan operator memblokir perangkat tertentu atau menyesuaikan paket data juga tidak bisa dikesampingkan.
- Selain menghindari penggunaan IP data center, membuat pola perilaku yang mirip manusia tampaknya akan membantu menghindari deteksi bot. Daripada pengumpulan skala besar melalui otomatisasi, pendekatan pengumpulan lambat dengan concurrency terbatas layak dipertimbangkan.
- Memanfaatkan browser anti-detection komersial seperti Multilogin atau GoLogin juga layak dipertimbangkan. Namun, ada masalah biaya lisensi.
Belum ada komentar.