LWN Mengalami Serangan Scraper Paling Parah yang Pernah Dihadapi
(social.kernel.org)- LWN.net sedang mengalami serangan DDoS berbasis scraping skala besar yang berasal dari puluhan ribu alamat, sehingga respons situs melambat
- Jonathan Corbet menyebut bahwa mereka kini harus mempertahankan situs dari scraper terkait AI, dan meski ia tidak ingin memasang hambatan bagi akses pembaca, hal itu mungkin akan diperlukan
- Di komunitas, disebutkan kemungkinan bahwa perusahaan pengumpul data komersial seperti Bright Data berada di balik serangan ini, dan sejumlah pengguna melaporkan lonjakan trafik serupa
- Sebagian menanggapi dengan langganan RSS, pembuatan situs statis, LLM tarpit, dan lainnya; juga dibagikan kasus serangan yang berasal dari IP cloud besar seperti Azure, Google, dan AliCloud
- Insiden ini disorot sebagai contoh bagaimana pengumpulan data AI merusak stabilitas ekosistem web dan keberlanjutan para kreator
Serangan scraper skala besar terhadap LWN.net
-
Jonathan Corbet mengungkapkan bahwa LWN.net sedang mengalami serangan scraper paling parah yang pernah mereka hadapi
- Serangan ini berbentuk DDoS yang melibatkan puluhan ribu alamat IP, sehingga respons situs menurun
- Ia mengatakan, “harus melindungi LWN dari scraper terkait AI adalah hal yang tidak ingin saya lakukan,” seraya menambahkan bahwa ia tidak ingin menerapkan hambatan akses bagi pembaca, tetapi itu mungkin perlu dilakukan
-
Corbet mengatakan ia tidak bisa mengidentifikasi pelaku serangan, namun menyebut kemungkinan keterlibatan Bright Data atau pesaing serupa
- Ada saat-saat ketika beban CPU menjadi sangat berat, dan meski server bisa ditambah, ia menyebut bahwa “membayar biaya agar artikel yang ditulis dengan susah payah dimakan orang-orang seperti itu sangat menjengkelkan”
Reaksi dan usulan dari komunitas
- Tristan Colgate-McFarlane menyoroti bahwa mesin pencari memprioritaskan konten hasil pembajakan, sehingga trafik dan pendapatan iklan penulis asli direbut
- Banyak pengguna melaporkan mengalami lonjakan trafik scraper AI
- Light Owl menyebut trafik situsnya meningkat 20 kali lipat dibanding biasanya
- Ben Tasker menjelaskan bahwa ia memblokir sebagian permintaan dengan jebakan bot LLM tarpit
- Sebagian melaporkan serangan berasal dari IP cloud besar seperti Azure, Google, AliCloud
- Dec, mx alex tax1a, dan David Gerard masing-masing membagikan contoh pemblokiran rentang IP MSFT, Google, dan Ali
Diskusi soal langkah penanganan
- Riku Voipio mengusulkan penggunaan server khusus pelanggan (subscriber.lwn.net), tetapi Corbet menjawab bahwa hal itu bisa mempersulit masuknya pelanggan baru
- Jani Nikula mengusulkan akses khusus pengguna terdaftar, namun Corbet mengatakan efektivitasnya rendah karena bot sudah membuat akun
- trademark mengusulkan content sharding untuk meningkatkan efisiensi cache, tetapi Corbet menjawab bahwa cache bukan masalahnya
Berbagi pengalaman dari operator situs lain
- Sejumlah operator melaporkan pola serangan serupa
- Dec menyebut pemindaian celah PHP dan percobaan login wp-admin terjadi dari IP MSFT
- David Gerard menjelaskan bahwa RationalWiki menanganinya dengan verifikasi cookie berbasis JavaScript, namun efek sampingnya adalah Googlebot ikut terblokir
- Catherine (whitequark) menyebut bahwa hanya dengan menangani respons 404 saja sudah membantu meringankan beban server
Persepsi di dalam komunitas
- Sebagian menyatakan bahwa “web benar-benar sedang rusak”, dan mengkritik bahwa scraping AI mempercepat keruntuhan ekosistem web
- Ayush Agarwal menyoroti bahwa bahkan di komunitas kernel pun perlu ada kesadaran bahwa penggunaan LLM merugikan situs kecil
- Martin Roukala bercanda sinis bahwa ini adalah “masalah karena terlalu relevan”, namun Jani Nikula menjawab bahwa “scraper tidak peduli pada hal seperti itu”
1 komentar
Komentar Hacker News
Penasaran siapa yang menjalankan scraper agresif seperti ini
Kalau itu laboratorium AI, mungkin memang efisien mengeruk banyak situs sekaligus untuk mengumpulkan data, tapi saya tidak paham kenapa mereka sampai mau membebani situs populer sambil menanggung risiko reputasi
Kemungkinan besar mereka asal menguji scraper buatan AI lalu langsung menyebarkannya
Selain itu, mereka menyembunyikan identitas lewat ‘residential IP provider’, jadi praktis tidak ada risiko reputasi
Bahkan kalaupun itu perusahaan besar seperti OpenAI atau Anthropic, rasanya orang-orang tetap akan membiarkannya begitu saja
Dengan alat seperti Claude Cowork, pengguna bisa membuat crawler sendiri, dan saya sendiri pernah mengeruk situs NASA lalu membombardir halaman 404 sampai diblokir sementara
Pada akhirnya, bahkan pengguna dengan ‘niat baik’ pun ikut mengubah pola trafik web
Statistik terkait bisa dilihat di Cloudflare AI Insights
Selain GPTBot milik OpenAI, kebanyakan berasal dari perusahaan kecil yang belum pernah saya dengar, dan sebagian bahkan menyembunyikan User-Agent
Datanya sudah ada di Common Crawl, jadi saya tidak mengerti kenapa masih harus mengeruk lagi
AI menjual ulang kode open source seolah-olah mereka yang menulisnya, sehingga mengakali lisensi, dan itu masalah besar
Bukan cuma kode, konten lain juga dikeruk dengan cara yang sama
Nama variabelnya hanya sedikit diubah, tapi strukturnya sama
Kalau orang melakukan ini di perusahaan, dia pasti langsung dipecat
Tapi kalau AI yang melakukannya, aneh sekali ada yang mengklaim pembenaran moral sambil menyebutnya “fair use”
Scraping seperti ini mungkin bukan sekadar pengumpulan data AI
Situs-situs FOSS terus-menerus diserang, dan secara ekonomi tidak masuk akal
Mungkin saja ada niat untuk mengacaukan industri teknologi atau komunitas open source
Meski proyeknya nirlaba, trafik setingkat DDOS tetap membanjir, sampai akhirnya mereka harus memasang tembok login
Sebagian besar memakai IP residensial, dan akar masalahnya tampaknya orang-orang yang merasa “semua yang ada di internet adalah milik saya”
Blog saya terlalu tidak menarik, jadi tidak mengalami masalah scraping
Seperti ungkapan “serangan DDOS yang melibatkan puluhan ribu alamat”, serangannya sangat terdistribusi
Bahkan situs kecil pun bisa dihantam trafik dari ribuan IP
BrightData adalah contoh yang terkenal; memang lebih mahal daripada IP data center, tapi jauh lebih sulit diblokir
sedangkan tafsiran terburuknya adalah ini cuma bot buatan pengembang antisosial yang bekerja tanpa pikir panjang
Residential proxy pada dasarnya harus diperlakukan sebagai malware
Harus ditambahkan ke definisi antivirus dan dikeluarkan dari app store
Saya penasaran apakah ini benar-benar scraping untuk pelatihan AI
Kalau tidak bisa dibedakan dari DDOS biasa, bukankah sulit untuk yakin?
Sekarang serangannya tampaknya sudah berhenti
Halaman utama juga bisa dimuat dengan normal
Untuk memblokir scraper blog, saya menimpa metode JavaScript agar isi halaman menjadi kosong
Menyembunyikan elemen dengan Shadow DOM bisa membuatnya lebih sulit
Hanya saja, metode seperti ini bisa menimbulkan masalah untuk alat pengujian seperti Playwright atau Selenium dan untuk pengindeksan mesin pencari
Ada yang berpendapat bahwa “perusahaan AI sengaja melumpuhkan situs pesaing dengan DDOS demi memonopoli data”
Mengeruk situs seperti ini tidak memberi AI keuntungan apa pun, malah terdengar seperti paranoia berlebihan