1 poin oleh GN⁺ 2026-01-19 | 1 komentar | Bagikan ke WhatsApp
  • LWN.net sedang mengalami serangan DDoS berbasis scraping skala besar yang berasal dari puluhan ribu alamat, sehingga respons situs melambat
  • Jonathan Corbet menyebut bahwa mereka kini harus mempertahankan situs dari scraper terkait AI, dan meski ia tidak ingin memasang hambatan bagi akses pembaca, hal itu mungkin akan diperlukan
  • Di komunitas, disebutkan kemungkinan bahwa perusahaan pengumpul data komersial seperti Bright Data berada di balik serangan ini, dan sejumlah pengguna melaporkan lonjakan trafik serupa
  • Sebagian menanggapi dengan langganan RSS, pembuatan situs statis, LLM tarpit, dan lainnya; juga dibagikan kasus serangan yang berasal dari IP cloud besar seperti Azure, Google, dan AliCloud
  • Insiden ini disorot sebagai contoh bagaimana pengumpulan data AI merusak stabilitas ekosistem web dan keberlanjutan para kreator

Serangan scraper skala besar terhadap LWN.net

  • Jonathan Corbet mengungkapkan bahwa LWN.net sedang mengalami serangan scraper paling parah yang pernah mereka hadapi

    • Serangan ini berbentuk DDoS yang melibatkan puluhan ribu alamat IP, sehingga respons situs menurun
    • Ia mengatakan, “harus melindungi LWN dari scraper terkait AI adalah hal yang tidak ingin saya lakukan,” seraya menambahkan bahwa ia tidak ingin menerapkan hambatan akses bagi pembaca, tetapi itu mungkin perlu dilakukan
  • Corbet mengatakan ia tidak bisa mengidentifikasi pelaku serangan, namun menyebut kemungkinan keterlibatan Bright Data atau pesaing serupa

    • Ada saat-saat ketika beban CPU menjadi sangat berat, dan meski server bisa ditambah, ia menyebut bahwa “membayar biaya agar artikel yang ditulis dengan susah payah dimakan orang-orang seperti itu sangat menjengkelkan”

Reaksi dan usulan dari komunitas

  • Tristan Colgate-McFarlane menyoroti bahwa mesin pencari memprioritaskan konten hasil pembajakan, sehingga trafik dan pendapatan iklan penulis asli direbut
  • Banyak pengguna melaporkan mengalami lonjakan trafik scraper AI
    • Light Owl menyebut trafik situsnya meningkat 20 kali lipat dibanding biasanya
    • Ben Tasker menjelaskan bahwa ia memblokir sebagian permintaan dengan jebakan bot LLM tarpit
  • Sebagian melaporkan serangan berasal dari IP cloud besar seperti Azure, Google, AliCloud
    • Dec, mx alex tax1a, dan David Gerard masing-masing membagikan contoh pemblokiran rentang IP MSFT, Google, dan Ali

Diskusi soal langkah penanganan

  • Riku Voipio mengusulkan penggunaan server khusus pelanggan (subscriber.lwn.net), tetapi Corbet menjawab bahwa hal itu bisa mempersulit masuknya pelanggan baru
  • Jani Nikula mengusulkan akses khusus pengguna terdaftar, namun Corbet mengatakan efektivitasnya rendah karena bot sudah membuat akun
  • trademark mengusulkan content sharding untuk meningkatkan efisiensi cache, tetapi Corbet menjawab bahwa cache bukan masalahnya

Berbagi pengalaman dari operator situs lain

  • Sejumlah operator melaporkan pola serangan serupa
    • Dec menyebut pemindaian celah PHP dan percobaan login wp-admin terjadi dari IP MSFT
    • David Gerard menjelaskan bahwa RationalWiki menanganinya dengan verifikasi cookie berbasis JavaScript, namun efek sampingnya adalah Googlebot ikut terblokir
    • Catherine (whitequark) menyebut bahwa hanya dengan menangani respons 404 saja sudah membantu meringankan beban server

Persepsi di dalam komunitas

  • Sebagian menyatakan bahwa “web benar-benar sedang rusak”, dan mengkritik bahwa scraping AI mempercepat keruntuhan ekosistem web
  • Ayush Agarwal menyoroti bahwa bahkan di komunitas kernel pun perlu ada kesadaran bahwa penggunaan LLM merugikan situs kecil
  • Martin Roukala bercanda sinis bahwa ini adalah “masalah karena terlalu relevan”, namun Jani Nikula menjawab bahwa “scraper tidak peduli pada hal seperti itu”

1 komentar

 
GN⁺ 2026-01-19
Komentar Hacker News
  • Penasaran siapa yang menjalankan scraper agresif seperti ini
    Kalau itu laboratorium AI, mungkin memang efisien mengeruk banyak situs sekaligus untuk mengumpulkan data, tapi saya tidak paham kenapa mereka sampai mau membebani situs populer sambil menanggung risiko reputasi

    • Dalam kasus seperti ini, sering terlihat adanya kekurangan kemampuan teknis atau kepedulian
      Kemungkinan besar mereka asal menguji scraper buatan AI lalu langsung menyebarkannya
      Selain itu, mereka menyembunyikan identitas lewat ‘residential IP provider’, jadi praktis tidak ada risiko reputasi
      Bahkan kalaupun itu perusahaan besar seperti OpenAI atau Anthropic, rasanya orang-orang tetap akan membiarkannya begitu saja
    • Di awal, perusahaan besar AS seperti OpenAI atau Anthropic sempat dicurigai, tapi belakangan makin banyak agen AI pribadi yang mengeruk halaman web
      Dengan alat seperti Claude Cowork, pengguna bisa membuat crawler sendiri, dan saya sendiri pernah mengeruk situs NASA lalu membombardir halaman 404 sampai diblokir sementara
      Pada akhirnya, bahkan pengguna dengan ‘niat baik’ pun ikut mengubah pola trafik web
      Statistik terkait bisa dilihat di Cloudflare AI Insights
    • Situs pribadi saya juga kadang lumpuh karena scraper
      Selain GPTBot milik OpenAI, kebanyakan berasal dari perusahaan kecil yang belum pernah saya dengar, dan sebagian bahkan menyembunyikan User-Agent
      Datanya sudah ada di Common Crawl, jadi saya tidak mengerti kenapa masih harus mengeruk lagi
    • Mungkin ada seseorang yang menyuruh Claude Code untuk “arsipkan seluruh LWN”
    • LWN memuat banyak arsip mailing list, jadi itu mungkin alasannya
  • AI menjual ulang kode open source seolah-olah mereka yang menulisnya, sehingga mengakali lisensi, dan itu masalah besar
    Bukan cuma kode, konten lain juga dikeruk dengan cara yang sama

    • Saya pernah mengerjakan proyek terkait game DOS lama, dan Claude mengeruk kode saya hampir mentah-mentah lalu memproduksinya ulang dengan lisensi berbeda
      Nama variabelnya hanya sedikit diubah, tapi strukturnya sama
      Kalau orang melakukan ini di perusahaan, dia pasti langsung dipecat
      Tapi kalau AI yang melakukannya, aneh sekali ada yang mengklaim pembenaran moral sambil menyebutnya “fair use”
    • Pada akhirnya, ini seperti pencucian kekayaan intelektual yang menjadi versi baru dari pencucian uang
    • Namun belum pernah ada putusan yang menyatakan hal itu sah secara hukum untuk AI; itu hanya klaim dari industri AI
  • Scraping seperti ini mungkin bukan sekadar pengumpulan data AI
    Situs-situs FOSS terus-menerus diserang, dan secara ekonomi tidak masuk akal
    Mungkin saja ada niat untuk mengacaukan industri teknologi atau komunitas open source

    • Komunitas modding game niche juga mengalami serangan yang sama
      Meski proyeknya nirlaba, trafik setingkat DDOS tetap membanjir, sampai akhirnya mereka harus memasang tembok login
    • Mungkin banyak ilmuwan data yang membuat scraper dengan AI tanpa benar-benar peduli seberapa sering bot itu menghantam sebuah situs
    • Beberapa forum yang saya ikuti juga akhirnya tidak bisa dibaca tanpa login
    • Saya juga mengelola wiki game browser kecil, dan banyak bot termasuk dari Claude dan OpenAI mengeruknya secara agresif
      Sebagian besar memakai IP residensial, dan akar masalahnya tampaknya orang-orang yang merasa “semua yang ada di internet adalah milik saya”
    • Untungnya, kalau komunitas hobinya berbasis wilayah, pemblokiran bisa dilakukan dengan lebih berani
  • Blog saya terlalu tidak menarik, jadi tidak mengalami masalah scraping

    • Tapi gara-gara blog itu, saya jadi pertama kali tahu soal Git Brag. Cukup menarik
    • Kalau Anda bisa membuat LLM merasa bosan, itu justru pencapaian yang hebat
  • Seperti ungkapan “serangan DDOS yang melibatkan puluhan ribu alamat”, serangannya sangat terdistribusi
    Bahkan situs kecil pun bisa dihantam trafik dari ribuan IP

    • Serangan semacam ini kebanyakan dilakukan lewat layanan residential proxy
      BrightData adalah contoh yang terkenal; memang lebih mahal daripada IP data center, tapi jauh lebih sulit diblokir
    • git.ardour.org juga mengalami scraping git tak berguna dari lebih dari 1 juta IP
    • Tafsiran paling lunaknya adalah perusahaan AI tidak tahu ada sumber alternatif seperti CommonCrawl lalu mengeruk langsung,
      sedangkan tafsiran terburuknya adalah ini cuma bot buatan pengembang antisosial yang bekerja tanpa pikir panjang
    • Saya ingin menyebut serangan seperti ini sebagai “Distributed Intelligence Logic Denial Of Service (DILDOS)
  • Residential proxy pada dasarnya harus diperlakukan sebagai malware
    Harus ditambahkan ke definisi antivirus dan dikeluarkan dari app store

  • Saya penasaran apakah ini benar-benar scraping untuk pelatihan AI
    Kalau tidak bisa dibedakan dari DDOS biasa, bukankah sulit untuk yakin?

    • Tapi LWN sudah berjalan hampir 30 tahun, dan sebelum crawling AI tidak pernah ada DDOS
  • Sekarang serangannya tampaknya sudah berhenti
    Halaman utama juga bisa dimuat dengan normal

  • Untuk memblokir scraper blog, saya menimpa metode JavaScript agar isi halaman menjadi kosong
    Menyembunyikan elemen dengan Shadow DOM bisa membuatnya lebih sulit
    Hanya saja, metode seperti ini bisa menimbulkan masalah untuk alat pengujian seperti Playwright atau Selenium dan untuk pengindeksan mesin pencari

    • Tapi saya juga tidak yakin apakah cara seperti ini benar-benar efektif
    • Menjadikan fungsi itu menghasilkan data sampah untuk membingungkan bot juga terdengar seperti ide yang menarik
  • Ada yang berpendapat bahwa “perusahaan AI sengaja melumpuhkan situs pesaing dengan DDOS demi memonopoli data

    • Tapi itu terdengar seperti teori konspirasi
    • Bisa jadi semacam strategi ‘menendang tangga setelah naik’
    • Namun LWN sendiri sudah merupakan situs newsletter lama, jadi nyaris tidak punya data bernilai
      Mengeruk situs seperti ini tidak memberi AI keuntungan apa pun, malah terdengar seperti paranoia berlebihan