29 poin oleh xguru 2021-11-29 | 12 komentar | Bagikan ke WhatsApp
<p>- Jika membuat layanan yang menjalankan pencarian Google hingga jutaan kali, dibutuhkan alternatif agar tidak diblokir<br /> - Cara paling mudah adalah menggunakan proxy berbayar, tetapi biayanya cukup mahal <br /> → Karena itu, ini adalah tulisan menarik yang menjelaskan secara rinci berbagai hal yang sudah dicoba penulis<br /> <br /> - Awalnya menggunakan AWS Lambda + Puppeteer <br /> → AWS menyediakan 16 region di seluruh dunia, dan setiap 3 kali Lambda dijalankan akan diberikan IP baru <br /> → Jika menjalankan 1000 Lambda secara bersamaan, akan memakai sekitar 250 IP publik<br /> → 16 region * 250 berarti 4000 alamat IP, dan sebanyak itu cukup untuk melakukan pencarian Google dalam skala jutaan per minggu <br /> → Sudah dicoba juga di GCP, dan lucunya Google memblokir IP cloud miliknya sendiri dengan lebih agresif (dibanding AWS)<br /> → Ini cerita sekitar 2019~2020 dan mungkin sekarang sudah berubah <br /> <br /> - Metode ini bisa dipakai untuk scraping Google/Bing/Amazon dan lainnya, tetapi ada batasannya<br /> → Jika situs menggunakan perusahaan anti-bot seperti DataDome, Akamai, atau Imperva, maka cara ini tidak berlaku <br /> → Mereka mengidentifikasi bot lewat browser fingerprinting dengan cara yang sangat beragam<br /> → Google Picasso, Font/TLS/WebGL Fingerprinting..<br /> → Sebenarnya kebanyakan layanan scraping skala besar memakai cloud + container Docker, sehingga mudah diidentifikasi<br /> <br /> - Infrastruktur scraping yang sulit dideteksi dan dapat diskalakan <br /> → Dua aturan untuk berhasil melakukan scraping <br /> 1. Jangan memalsukan pengaturan browser <br /> 2. Yang paling penting, palsukan pengaturan browser hanya jika "tidak ada yang akan menyadarinya"<br /> → Untuk itu, kesimpulannya adalah yang terbaik memang "menggunakan perangkat nyata"<br /> ⇨ Membeli 500 perangkat Android murah dari berbagai produsen, lalu berlangganan paket data murah<br /> ⇨ Menyebarkannya di beberapa kota (dekat antena)<br /> ⇨ Memanfaatkan open source seperti DeviceFarmer/stf untuk mengendalikan perangkat secara bersamaan <br /> ⇨ Memasang OS ringan seperti Android Go, lalu mengaktifkan mode pesawat setiap 5 menit agar terus mendapatkan alamat IP baru<br /> ⇨ "4G carrier grade NAT": NAT kelas operator 4G adalah cara yang dirancang untuk mencegah kehabisan alamat IPv4, sehingga satu IP dibagi oleh ratusan ribu pengguna dan praktis tidak mungkin diblokir<br /> → Ada banyak kerepotan seperti harus membeli 500 perangkat Android, menyiapkan lokasi instalasi, dan melakukan pemeliharaan hardware <br /> <br /> - Peningkatan: mengemulasikan Android <br /> → Daripada membeli perangkat Android, bagaimana jika memakai Android-X8, Bluestacks, Android Studio Emulator, dan semacamnya?<br /> → Proxidize memungkinkan pembuatan proxy mobile 4G<br /> → Memasang 50 dongle 4G di satu server<br /> → Di tiap server, mengemulasikan 50~100 perangkat Android <br /> → Menempatkan stasiun ini di 5 kota <br /> → Mengelola stasiun-stasiun ini dengan perintah yang solid </p>

12 komentar

 
xguru 2021-12-06
<p>- Menghindari deteksi bot: cara melakukan web scraping tanpa diblokir https://id.news.hada.io/topic?id=5304<br /> <br /> Proxy, layanan scraping, software anti-bot, dan lain-lain dirangkum dengan baik dalam tulisan di atas.</p>
 
eajrezz 2021-12-06
<p>Peretasan yang keren!</p>
 
joone 2021-12-04
<p>https://www.diffbot.com/products/crawl/<br /> <br /> Ada juga layanan yang melakukan crawling lalu scraping halaman web. Data hasil scraping disimpan dalam format JSON dengan mengecualikan informasi yang tidak diperlukan.</p>
 
benjamin 2021-11-29
<p>Mulut sampai ternganga...</p>
 
xguru 2021-11-29
<p>Ngomong-ngomong hal yang sama sekali berbeda.. <br /> <br /> Ada juga tempat seperti https://serpapi.com/ yang menjual Google Search dalam bentuk API.. <br /> Tapi di sini mereka juga menjual pencarian Naver dalam bentuk API, haha<br /> https://serpapi.com/naver-search-api<br /> <br /> Harga yang mencengangkan? yaitu $250 untuk 30 ribu pencarian per bulan</p>
 
v08zbv8fvlkjasdflkj 2021-11-29
<p>Apakah ini mengejutkan karena terlalu mahal? Saya kurang punya gambaran.</p>
 
xguru 2021-11-29
<p>Ya, itu memang sangat mahal. Dibandingkan dengan hal-hal seperti menggunakan proxy berbayar.<br /> Karena berupa API, ini memang nyaman karena tidak perlu khawatir diblokir.</p>
 
hentol 2021-11-29
<p>Kalau mengacu pada kondisi dalam negeri, saya jadi teringat paket MVNO gratis 0 won yang setidaknya menyediakan sejumlah data...<br /> Tapi karena sulit melakukan pendaftaran dalam jumlah besar, sepertinya ini juga akan sulit.</p>
 
xguru 2021-11-29
<p>Untuk Google Fi, satu jalur mendukung hingga 4 kartu SIM data tambahan, jadi sepertinya ini juga bisa menjadi salah satu cara.</p>
 
nallwhy 2021-11-29
<p>Dulu saat men-scrape sesuatu dari naver<br /> di AWS lambda tidak bisa, tapi di GCP functions bisa,<br /> saya ingat sempat berpikir itu karena rentang IP-nya terbuka, tapi sepertinya bukan begitu juga.</p>
 
honore 2021-11-29
<p>Saya sudah menggunakan cara nomor 1, jadi saya melihat metode lain yang ada apa saja.. ternyata ini benar-benar di luar dugaan saya.</p>
 
xguru 2021-11-29
<p>Sebenarnya, Lambda+Puppeteer pada poin 1 juga sepertinya cukup oke jika memakai cara itu,<br /> tetapi dibandingkan dengan metode Proxidize di bagian paling akhir, kemungkinan akan ada perbedaan biaya tergantung skala scraping-nya.<br /> Semakin besar kebutuhan skalanya, Proxidize mungkin akan lebih stabil, tetapi untuk cara yang sederhana, opsi nomor 1 juga sepertinya tidak buruk. <br /> <br /> https://proxidize.com/ yang diperkenalkan di bagian akhir menarik juga. <br /> Ini adalah solusi hardware+software yang memungkinkan Anda membuat dan mengelola sendiri proxy mobile 4G.<br /> Versi 5 dongle harganya $399. Melihat Korea juga ada di daftar negara pengguna, sepertinya bisa dipakai?<br /> <br /> Meski bukan sampai CGNAT, ada juga solusi seperti Scrapoxy yang mengelola penuh software proxy pool.<br /> - Scrapoxy - alat pengelolaan proxy pool untuk web crawler https://id.news.hada.io/topic?id=2308</p&gt;