16 poin oleh chernobyl 2021-05-26 | 4 komentar | Bagikan ke WhatsApp
  • Selama ini, banyak web crawler yang diperkenalkan di internet sebenarnya lebih merupakan 'scraper' sehingga sulit disebut crawler

  • Penulis memperkenalkan secara singkat makalah-makalah yang mendefinisikan web crawler

  • Crawler adalah aplikasi yang melakukan BFS dan DFS pada dunia internet.

  • Aturan robot adalah isu yang sangat penting hingga dapat menentukan citra perusahaan, tetapi masih banyak startup yang tidak mengetahuinya.

4 komentar

 
youth 2021-05-27

Tahun lalu juga setelah membaca tulisan orang ini saya sempat berpikir kenapa cara pandangnya begitu miring, tapi entah sekarang setidaknya sudah agak membaik atau tidak.

Kalau bicara realistis, kecuali memang orang-orang di perusahaan besar yang benar-benar mengoperasikan mesin pencari...

Bahkan kalau memakai crawler pun, di bidang text mining, kalau bukan bahasa Inggris, biaya pra-pemrosesannya besar, jadi dengan crawler seperti itu pun sulit mengekstrak data berkualitas. Di bidang pemrosesan gambar, dataset berkualitas juga sudah bertebaran, jadi tidak ada alasan khusus untuk repot-repot mengoperasikan crawler. Bukan tanpa alasan teori bagus seperti itu dibiarkan sementara scraper merajalela. Itu hanya karena nilainya tidak sebanding dengan kerja keras yang dibutuhkan untuk mendapatkannya.

"Crawler sempurna" yang dia bicarakan itu, mungkin teorinya bagus, tapi pada akhirnya hanya sebatas mengekstrak data dengan probabilitas yang agak lebih tinggi, jadi sulit dipakai untuk AI atau bidang-bidang semacam itu belakangan ini—ibarat ayam tanpa kepala. Biaya pemeliharaannya juga tidak murah, data yang diekstrak juga tidak lengkap, sulit dikelola, dan masalah hukumnya juga banyak. Daripada individu atau perusahaan mempertimbangkan semua masalah itu, secara ekonomi lebih masuk akal untuk sekadar menjalankan beberapa scraper di situs-situs besar. Satu scraper untuk situs besar yang dianalisis dengan baik dan dibangun dengan matang itu ratusan sampai ribuan kali lebih ekonomis dan praktis daripada keluar-masuk 10.000 situs tak berguna. Untuk mengoperasikan satu crawler secara luas dengan "baik" saja sudah sulit bahkan kalau para master dan doktor ikut turun tangan. Kalau sampai harus memantau crawler lalu merevisi logikanya juga, itu pasti jauh lebih mengerikan. Log-nya sendiri pun pasti sangat besar, jadi itu pun harus diproses secara terdistribusi.

Tentu saja saya sepenuhnya setuju bahwa crawler adalah fondasi inti dan penting, tetapi saya jadi bertanya-tanya apakah perlu sampai membahas klaim seperti itu sepanjang tahun sambil terus membeda-bedakan level crawler dan scraper.

Bahkan sekarang pun saya tidak paham kenapa dia meremehkan Scrapy. Setidaknya dari segi opsi maupun ekstensi, jelas jauh lebih banyak daripada gocolly.

Yah, mungkin tiap orang punya sudut pandang masing-masing, tapi saya juga orang yang bekerja di tim pengumpulan big data, jadi saya tinggalkan pendapat dangkal saya ini.

 
twince 2021-05-28

Saya setuju.

 
kunggom 2021-05-26

Mungkin karena ini masih tulisan yang belum selesai, ada beberapa bagian yang terlihat seperti ada isi yang seharusnya ada tetapi malah hilang.

Di tengah, apakah [Lambda Crawl] yang disebut dalam penjadwalan kunjungan ulang itu merujuk pada makalah Effective Page Refresh Policies For Web Crawlers? Soalnya kalau dicari dengan kata kunci ini, yang keluar malah banyak sekali pembahasan tentang crawling dengan Lambda, layanan serverless dari AWS, dan semacamnya. Padahal di daftar referensi di bawah, sepertinya makalah ini tidak ada…

http://ilpubs.stanford.edu:8090/604/1/2003-44.pdf

 
chernobyl 2021-05-27

Makalah “Tractable near-optimal policies for crawling” muncul di sini.