1 poin oleh GN⁺ 2025-03-21 | 1 komentar | Bagikan ke WhatsApp
  • Drew DeVault (pendiri SourceHut) memperingatkan bahwa crawler AI mengabaikan robots.txt dan menyebabkan gangguan serius pada SourceHut
  • Infrastruktur GitLab milik KDE juga menjadi tidak dapat diakses akibat serangan crawler AI yang berasal dari rentang IP Alibaba
  • Masalah crawler AI
    • Crawler AI mengabaikan persyaratan robots.txt
      • Merayapi semua halaman dan commit dari git blame serta git log
      • Menggunakan User-Agent acak dan mengirim permintaan dari puluhan ribu IP → menyamar sebagai trafik pengguna biasa
    • Sulit memblokir crawler → pekerjaan berprioritas tinggi tertunda selama berminggu-minggu atau berbulan-bulan
  • Keluhan para administrator sistem
    • Masalah crawler AI bukan kasus terpisah, melainkan masalah yang meluas
      • Banyak administrator sistem mengalami masalah yang sama
      • OpenAI dan Anthropic menetapkan User-Agent yang akurat, tetapi perusahaan AI asal Tiongkok tidak
  • Respons KDE GitLab
    • Memblokir bot yang menyamar sebagai MS Edge → solusi sementara
    • GNOME menerapkan pembatasan laju untuk melihat merge request dan commit bagi pengguna yang tidak login
    • Mengadopsi Anubis → browser diizinkan mengakses setelah menyelesaikan tantangan
  • Masalah pada Anubis
    • Dampaknya juga dirasakan pengguna → perlu waktu untuk menyelesaikan tantangan
      • Jika tautan dibagikan di ruang obrolan, beban berlebih terjadi → waktu tunggu 1–2 menit
  • 97% trafik adalah bot
    • Di GNOME, terjadi 81.000 permintaan dalam 2,5 jam → 97% adalah crawler AI
    • Beberapa proyek mengalami penurunan trafik 75% setelah memblokir crawler AI
  • Masalah di proyek FOSS lainnya
    • Fedora → memblokir seluruh IP Brasil untuk menghentikan crawler
    • Inkscape → crawler memalsukan informasi browser → pemblokiran IP dalam skala besar
    • Frama Software → membuat daftar blokir 460 ribu IP
  • Proyek untuk menangani crawler AI
    • ai.robots.txt → menyediakan daftar terbuka untuk memblokir crawler AI
      • Mengatur file robots.txt dan .htaccess → mengembalikan halaman error saat ada permintaan dari crawler AI
  • Hasil analisis trafik
    • Dalam kasus Diaspora, 70% trafik adalah crawler AI
      • User agent OpenAI: 25%
      • Amazon: 15%
      • Anthropic: 4.3%
    • Pangsa trafik crawler Google dan Bing kurang dari 1%
  • Masalah laporan bug buatan AI
    • Proyek Curl mengalami masalah laporan bug buatan AI
      • Sebagian besar bug yang dilaporkan adalah masalah halusinasi (hallucination)
    • CPython, pip, urllib3, Requests → menghabiskan waktu untuk menangani laporan keamanan buatan AI
      • Keandalannya rendah → tetapi tetap perlu diperiksa → beban maintainer meningkat

Kesimpulan

  • Crawler AI dan laporan bug buatan AI memberi beban besar pada komunitas open source
  • Proyek open source memiliki sumber daya lebih sedikit dibanding produk komersial, dan karena berbasis komunitas, lebih rentan terhadap masalah semacam ini

1 komentar

 
GN⁺ 2025-03-21
Komentar Hacker News
  • Banyak orang yang mengelola infrastruktur internet skala besar mengalami hal serupa

    • Mereka membagikan cerita tentang penyalahgunaan crawler AI, dan ada tulisan yang mengumpulkan serta merangkum masalah ini di satu tempat
    • Beberapa startup menyelesaikan masalah tersebut dan mengembalikan biaya, tetapi Facebook tidak membalas email
  • Fastly menyediakan layanan keamanan gratis untuk proyek FOSS

    • Belakangan ini permintaan terkait scraping AI meningkat
  • Terkejut melihat proyeknya muncul di gambar pratinjau

    • Proyek tersebut dideploy ke xeiaso.net untuk memeriksa cara kerjanya di lingkungan nyata
  • Bukan hanya infrastruktur FOSS, tetapi akses internet anonim itu sendiri juga terancam

    • Bot-bot baru dapat memecahkan CAPTCHA dan bertindak seperti pengguna sungguhan
    • Ada kemungkinan situs akan meminta verifikasi seperti kartu kredit atau Worldcoin
  • Baru-baru ini sebuah instance Forgejo diserang

    • Disk penuh oleh file zip yang dihasilkan, dan serangan berkurang setelah memblokir rentang IP Alibaba Cloud
    • Disarankan untuk mengubah pengaturan DISABLE_DOWNLOAD_SOURCE_ARCHIVES menjadi true
  • Di masa lalu, robots.txt dibuat untuk mengatasi masalah mesin pencari, tetapi kini para indexer baru mengabaikannya

    • Dikatakan bahwa sanksi hukum diperlukan
  • Dominasi Google dan iklan atas web akan melemah

    • Karena CAPTCHA, mesin pencari tidak akan bisa mengindeks situs, dan ini akan menurunkan nilai mesin pencari
  • Menggunakan LLaMa untuk membuat postingan yang saling bertentangan sehingga menimbulkan kekacauan informasi

  • VideoLAN juga mengalami serangan pada forum dan Gitlab akibat bot dari perusahaan AI

    • Sebagian besar bot mengabaikan robots.txt
  • Ada kemungkinan muncul web yang tidak diindeks oleh mesin pencari

    • Sebagai solusi terhadap scraping LLM, diusulkan metode yang mewajibkan proof of work