LWN Mengalami Serangan Scraper Paling Parah yang Pernah Dihadapi

(social.kernel.org)

1 poin oleh GN⁺ 2026-01-19 | 1 komentar | Bagikan ke WhatsApp

LWN.net sedang mengalami serangan DDoS berbasis scraping skala besar yang berasal dari puluhan ribu alamat, sehingga respons situs melambat
Jonathan Corbet menyebut bahwa mereka kini harus mempertahankan situs dari scraper terkait AI, dan meski ia tidak ingin memasang hambatan bagi akses pembaca, hal itu mungkin akan diperlukan
Di komunitas, disebutkan kemungkinan bahwa perusahaan pengumpul data komersial seperti Bright Data berada di balik serangan ini, dan sejumlah pengguna melaporkan lonjakan trafik serupa
Sebagian menanggapi dengan langganan RSS, pembuatan situs statis, LLM tarpit, dan lainnya; juga dibagikan kasus serangan yang berasal dari IP cloud besar seperti Azure, Google, dan AliCloud
Insiden ini disorot sebagai contoh bagaimana pengumpulan data AI merusak stabilitas ekosistem web dan keberlanjutan para kreator

Serangan scraper skala besar terhadap LWN.net

Jonathan Corbet mengungkapkan bahwa LWN.net sedang mengalami serangan scraper paling parah yang pernah mereka hadapi
- Serangan ini berbentuk DDoS yang melibatkan puluhan ribu alamat IP, sehingga respons situs menurun
- Ia mengatakan, “harus melindungi LWN dari scraper terkait AI adalah hal yang tidak ingin saya lakukan,” seraya menambahkan bahwa ia tidak ingin menerapkan hambatan akses bagi pembaca, tetapi itu mungkin perlu dilakukan
Corbet mengatakan ia tidak bisa mengidentifikasi pelaku serangan, namun menyebut kemungkinan keterlibatan Bright Data atau pesaing serupa
- Ada saat-saat ketika beban CPU menjadi sangat berat, dan meski server bisa ditambah, ia menyebut bahwa “membayar biaya agar artikel yang ditulis dengan susah payah dimakan orang-orang seperti itu sangat menjengkelkan”

Reaksi dan usulan dari komunitas

Tristan Colgate-McFarlane menyoroti bahwa mesin pencari memprioritaskan konten hasil pembajakan, sehingga trafik dan pendapatan iklan penulis asli direbut
Banyak pengguna melaporkan mengalami lonjakan trafik scraper AI
- Light Owl menyebut trafik situsnya meningkat 20 kali lipat dibanding biasanya
- Ben Tasker menjelaskan bahwa ia memblokir sebagian permintaan dengan jebakan bot LLM tarpit
Sebagian melaporkan serangan berasal dari IP cloud besar seperti Azure, Google, AliCloud
- Dec, mx alex tax1a, dan David Gerard masing-masing membagikan contoh pemblokiran rentang IP MSFT, Google, dan Ali

Diskusi soal langkah penanganan

Riku Voipio mengusulkan penggunaan server khusus pelanggan (subscriber.lwn.net), tetapi Corbet menjawab bahwa hal itu bisa mempersulit masuknya pelanggan baru
Jani Nikula mengusulkan akses khusus pengguna terdaftar, namun Corbet mengatakan efektivitasnya rendah karena bot sudah membuat akun
trademark mengusulkan content sharding untuk meningkatkan efisiensi cache, tetapi Corbet menjawab bahwa cache bukan masalahnya

Berbagi pengalaman dari operator situs lain

Sejumlah operator melaporkan pola serangan serupa
- Dec menyebut pemindaian celah PHP dan percobaan login wp-admin terjadi dari IP MSFT
- David Gerard menjelaskan bahwa RationalWiki menanganinya dengan verifikasi cookie berbasis JavaScript, namun efek sampingnya adalah Googlebot ikut terblokir
- Catherine (whitequark) menyebut bahwa hanya dengan menangani respons 404 saja sudah membantu meringankan beban server

Persepsi di dalam komunitas

Sebagian menyatakan bahwa “web benar-benar sedang rusak”, dan mengkritik bahwa scraping AI mempercepat keruntuhan ekosistem web
Ayush Agarwal menyoroti bahwa bahkan di komunitas kernel pun perlu ada kesadaran bahwa penggunaan LLM merugikan situs kecil
Martin Roukala bercanda sinis bahwa ini adalah “masalah karena terlalu relevan”, namun Jani Nikula menjawab bahwa “scraper tidak peduli pada hal seperti itu”

1 komentar

GN⁺ 2026-01-19

Komentar Hacker News

Penasaran siapa yang menjalankan scraper agresif seperti ini
Kalau itu laboratorium AI, mungkin memang efisien mengeruk banyak situs sekaligus untuk mengumpulkan data, tapi saya tidak paham kenapa mereka sampai mau membebani situs populer sambil menanggung risiko reputasi
- Dalam kasus seperti ini, sering terlihat adanya kekurangan kemampuan teknis atau kepedulian
  Kemungkinan besar mereka asal menguji scraper buatan AI lalu langsung menyebarkannya
  Selain itu, mereka menyembunyikan identitas lewat ‘residential IP provider’, jadi praktis tidak ada risiko reputasi
  Bahkan kalaupun itu perusahaan besar seperti OpenAI atau Anthropic, rasanya orang-orang tetap akan membiarkannya begitu saja
- Di awal, perusahaan besar AS seperti OpenAI atau Anthropic sempat dicurigai, tapi belakangan makin banyak agen AI pribadi yang mengeruk halaman web
  Dengan alat seperti Claude Cowork, pengguna bisa membuat crawler sendiri, dan saya sendiri pernah mengeruk situs NASA lalu membombardir halaman 404 sampai diblokir sementara
  Pada akhirnya, bahkan pengguna dengan ‘niat baik’ pun ikut mengubah pola trafik web
  Statistik terkait bisa dilihat di Cloudflare AI Insights
- Situs pribadi saya juga kadang lumpuh karena scraper
  Selain GPTBot milik OpenAI, kebanyakan berasal dari perusahaan kecil yang belum pernah saya dengar, dan sebagian bahkan menyembunyikan User-Agent
  Datanya sudah ada di Common Crawl, jadi saya tidak mengerti kenapa masih harus mengeruk lagi
- Mungkin ada seseorang yang menyuruh Claude Code untuk “arsipkan seluruh LWN”
- LWN memuat banyak arsip mailing list, jadi itu mungkin alasannya
AI menjual ulang kode open source seolah-olah mereka yang menulisnya, sehingga mengakali lisensi, dan itu masalah besar
Bukan cuma kode, konten lain juga dikeruk dengan cara yang sama
- Saya pernah mengerjakan proyek terkait game DOS lama, dan Claude mengeruk kode saya hampir mentah-mentah lalu memproduksinya ulang dengan lisensi berbeda
  Nama variabelnya hanya sedikit diubah, tapi strukturnya sama
  Kalau orang melakukan ini di perusahaan, dia pasti langsung dipecat
  Tapi kalau AI yang melakukannya, aneh sekali ada yang mengklaim pembenaran moral sambil menyebutnya “fair use”
- Pada akhirnya, ini seperti pencucian kekayaan intelektual yang menjadi versi baru dari pencucian uang
- Namun belum pernah ada putusan yang menyatakan hal itu sah secara hukum untuk AI; itu hanya klaim dari industri AI
Scraping seperti ini mungkin bukan sekadar pengumpulan data AI
Situs-situs FOSS terus-menerus diserang, dan secara ekonomi tidak masuk akal
Mungkin saja ada niat untuk mengacaukan industri teknologi atau komunitas open source
- Komunitas modding game niche juga mengalami serangan yang sama
  Meski proyeknya nirlaba, trafik setingkat DDOS tetap membanjir, sampai akhirnya mereka harus memasang tembok login
- Mungkin banyak ilmuwan data yang membuat scraper dengan AI tanpa benar-benar peduli seberapa sering bot itu menghantam sebuah situs
- Beberapa forum yang saya ikuti juga akhirnya tidak bisa dibaca tanpa login
- Saya juga mengelola wiki game browser kecil, dan banyak bot termasuk dari Claude dan OpenAI mengeruknya secara agresif
  Sebagian besar memakai IP residensial, dan akar masalahnya tampaknya orang-orang yang merasa “semua yang ada di internet adalah milik saya”
- Untungnya, kalau komunitas hobinya berbasis wilayah, pemblokiran bisa dilakukan dengan lebih berani
Blog saya terlalu tidak menarik, jadi tidak mengalami masalah scraping
- Tapi gara-gara blog itu, saya jadi pertama kali tahu soal Git Brag. Cukup menarik
- Kalau Anda bisa membuat LLM merasa bosan, itu justru pencapaian yang hebat
Seperti ungkapan “serangan DDOS yang melibatkan puluhan ribu alamat”, serangannya sangat terdistribusi
Bahkan situs kecil pun bisa dihantam trafik dari ribuan IP
- Serangan semacam ini kebanyakan dilakukan lewat layanan residential proxy
  BrightData adalah contoh yang terkenal; memang lebih mahal daripada IP data center, tapi jauh lebih sulit diblokir
- git.ardour.org juga mengalami scraping git tak berguna dari lebih dari 1 juta IP
- Tafsiran paling lunaknya adalah perusahaan AI tidak tahu ada sumber alternatif seperti CommonCrawl lalu mengeruk langsung,
  sedangkan tafsiran terburuknya adalah ini cuma bot buatan pengembang antisosial yang bekerja tanpa pikir panjang
- Saya ingin menyebut serangan seperti ini sebagai “Distributed Intelligence Logic Denial Of Service (DILDOS) ”
Residential proxy pada dasarnya harus diperlakukan sebagai malware
Harus ditambahkan ke definisi antivirus dan dikeluarkan dari app store
Saya penasaran apakah ini benar-benar scraping untuk pelatihan AI
Kalau tidak bisa dibedakan dari DDOS biasa, bukankah sulit untuk yakin?
- Tapi LWN sudah berjalan hampir 30 tahun, dan sebelum crawling AI tidak pernah ada DDOS
Sekarang serangannya tampaknya sudah berhenti
Halaman utama juga bisa dimuat dengan normal
Untuk memblokir scraper blog, saya menimpa metode JavaScript agar isi halaman menjadi kosong
Menyembunyikan elemen dengan Shadow DOM bisa membuatnya lebih sulit
Hanya saja, metode seperti ini bisa menimbulkan masalah untuk alat pengujian seperti Playwright atau Selenium dan untuk pengindeksan mesin pencari
- Tapi saya juga tidak yakin apakah cara seperti ini benar-benar efektif
- Menjadikan fungsi itu menghasilkan data sampah untuk membingungkan bot juga terdengar seperti ide yang menarik
Ada yang berpendapat bahwa “perusahaan AI sengaja melumpuhkan situs pesaing dengan DDOS demi memonopoli data”
- Tapi itu terdengar seperti teori konspirasi
- Bisa jadi semacam strategi ‘menendang tangga setelah naik’
- Namun LWN sendiri sudah merupakan situs newsletter lama, jadi nyaris tidak punya data bernilai
  Mengeruk situs seperti ini tidak memberi AI keuntungan apa pun, malah terdengar seperti paranoia berlebihan

LWN Mengalami Serangan Scraper Paling Parah yang Pernah Dihadapi

Serangan scraper skala besar terhadap LWN.net

Reaksi dan usulan dari komunitas

Diskusi soal langkah penanganan

Berbagi pengalaman dari operator situs lain

Persepsi di dalam komunitas

Bacaan terkait

1 komentar

Komentar Hacker News