Infrastruktur FOSS sedang diserang oleh perusahaan AI

(thelibre.news)

1 poin oleh GN⁺ 2025-03-21 | 1 komentar | Bagikan ke WhatsApp

Drew DeVault (pendiri SourceHut) memperingatkan bahwa crawler AI mengabaikan robots.txt dan menyebabkan gangguan serius pada SourceHut
Infrastruktur GitLab milik KDE juga menjadi tidak dapat diakses akibat serangan crawler AI yang berasal dari rentang IP Alibaba
Masalah crawler AI
- Crawler AI mengabaikan persyaratan robots.txt
  - Merayapi semua halaman dan commit dari git blame serta git log
  - Menggunakan User-Agent acak dan mengirim permintaan dari puluhan ribu IP → menyamar sebagai trafik pengguna biasa
- Sulit memblokir crawler → pekerjaan berprioritas tinggi tertunda selama berminggu-minggu atau berbulan-bulan
Keluhan para administrator sistem
- Masalah crawler AI bukan kasus terpisah, melainkan masalah yang meluas
  - Banyak administrator sistem mengalami masalah yang sama
  - OpenAI dan Anthropic menetapkan User-Agent yang akurat, tetapi perusahaan AI asal Tiongkok tidak
Respons KDE GitLab
- Memblokir bot yang menyamar sebagai MS Edge → solusi sementara
- GNOME menerapkan pembatasan laju untuk melihat merge request dan commit bagi pengguna yang tidak login
- Mengadopsi Anubis → browser diizinkan mengakses setelah menyelesaikan tantangan
Masalah pada Anubis
- Dampaknya juga dirasakan pengguna → perlu waktu untuk menyelesaikan tantangan
  - Jika tautan dibagikan di ruang obrolan, beban berlebih terjadi → waktu tunggu 1–2 menit
97% trafik adalah bot
- Di GNOME, terjadi 81.000 permintaan dalam 2,5 jam → 97% adalah crawler AI
- Beberapa proyek mengalami penurunan trafik 75% setelah memblokir crawler AI
Masalah di proyek FOSS lainnya
- Fedora → memblokir seluruh IP Brasil untuk menghentikan crawler
- Inkscape → crawler memalsukan informasi browser → pemblokiran IP dalam skala besar
- Frama Software → membuat daftar blokir 460 ribu IP
Proyek untuk menangani crawler AI
- ai.robots.txt → menyediakan daftar terbuka untuk memblokir crawler AI
  - Mengatur file robots.txt dan .htaccess → mengembalikan halaman error saat ada permintaan dari crawler AI
Hasil analisis trafik
- Dalam kasus Diaspora, 70% trafik adalah crawler AI
  - User agent OpenAI: 25%
  - Amazon: 15%
  - Anthropic: 4.3%
- Pangsa trafik crawler Google dan Bing kurang dari 1%
Masalah laporan bug buatan AI
- Proyek Curl mengalami masalah laporan bug buatan AI
  - Sebagian besar bug yang dilaporkan adalah masalah halusinasi (hallucination)
- CPython, pip, urllib3, Requests → menghabiskan waktu untuk menangani laporan keamanan buatan AI
  - Keandalannya rendah → tetapi tetap perlu diperiksa → beban maintainer meningkat

Kesimpulan

Crawler AI dan laporan bug buatan AI memberi beban besar pada komunitas open source
Proyek open source memiliki sumber daya lebih sedikit dibanding produk komersial, dan karena berbasis komunitas, lebih rentan terhadap masalah semacam ini

1 komentar

GN⁺ 2025-03-21

Komentar Hacker News

Banyak orang yang mengelola infrastruktur internet skala besar mengalami hal serupa
- Mereka membagikan cerita tentang penyalahgunaan crawler AI, dan ada tulisan yang mengumpulkan serta merangkum masalah ini di satu tempat
- Beberapa startup menyelesaikan masalah tersebut dan mengembalikan biaya, tetapi Facebook tidak membalas email
Fastly menyediakan layanan keamanan gratis untuk proyek FOSS
- Belakangan ini permintaan terkait scraping AI meningkat
Terkejut melihat proyeknya muncul di gambar pratinjau
- Proyek tersebut dideploy ke xeiaso.net untuk memeriksa cara kerjanya di lingkungan nyata
Bukan hanya infrastruktur FOSS, tetapi akses internet anonim itu sendiri juga terancam
- Bot-bot baru dapat memecahkan CAPTCHA dan bertindak seperti pengguna sungguhan
- Ada kemungkinan situs akan meminta verifikasi seperti kartu kredit atau Worldcoin
Baru-baru ini sebuah instance Forgejo diserang
- Disk penuh oleh file zip yang dihasilkan, dan serangan berkurang setelah memblokir rentang IP Alibaba Cloud
- Disarankan untuk mengubah pengaturan DISABLE_DOWNLOAD_SOURCE_ARCHIVES menjadi true
Di masa lalu, robots.txt dibuat untuk mengatasi masalah mesin pencari, tetapi kini para indexer baru mengabaikannya
- Dikatakan bahwa sanksi hukum diperlukan
Dominasi Google dan iklan atas web akan melemah
- Karena CAPTCHA, mesin pencari tidak akan bisa mengindeks situs, dan ini akan menurunkan nilai mesin pencari
Menggunakan LLaMa untuk membuat postingan yang saling bertentangan sehingga menimbulkan kekacauan informasi
VideoLAN juga mengalami serangan pada forum dan Gitlab akibat bot dari perusahaan AI
- Sebagian besar bot mengabaikan robots.txt
Ada kemungkinan muncul web yang tidak diindeks oleh mesin pencari
- Sebagai solusi terhadap scraping LLM, diusulkan metode yang mewajibkan proof of work

Infrastruktur FOSS sedang diserang oleh perusahaan AI

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News