Bot OpenAI melumpuhkan situs web perusahaan kecil seperti 'serangan DDoS'

(techcrunch.com)

6 poin oleh GN⁺ 2025-01-14 | 4 komentar | Bagikan ke WhatsApp

Triplegangers adalah perusahaan kecil yang dijalankan oleh 7 karyawan dan menjual basis data "digital double manusia"
- Menyediakan file gambar 3D dan foto untuk artis 3D, pembuat video game, dan lainnya
Masalah terjadi: bot OpenAI menggunakan lebih dari 600 IP untuk merayapi situs secara berlebihan hingga server down
- Mencoba mengumpulkan lebih dari 65.000 halaman produk dan ratusan ribu foto
- Lonjakan permintaan yang "mirip serangan DDoS" seperti ini diperkirakan akan menaikkan biaya AWS
GPTBot milik OpenAI bebas merayapi data jika file robots.txt tidak dikonfigurasi dengan benar
- Aktivitas bot diizinkan secara default kecuali situs memblokirnya secara terpisah
- robots.txt: file yang menentukan data apa yang tidak boleh dirayapi oleh mesin pencari
- Triplegangers tidak mengatur file robots.txt situs webnya dengan benar, sehingga bot OpenAI dapat mengikis datanya
Masalah tambahan:
- OpenAI memerlukan waktu hingga 24 jam untuk mengenali permintaan pemblokiran crawling
- Perusahaan AI lain juga merayapi data dengan cara serupa

Tanggapan Triplegangers

Langkah penanganan:
- Membuat file robots.txt yang dikonfigurasi dengan benar
- Mengatur akun Cloudflare untuk memblokir GPTBot dan crawler AI lainnya
Hasil:
- Berhasil menstabilkan situs
- Namun, mereka tidak tahu data apa yang telah diambil OpenAI, dan juga tidak ada cara untuk meminta penghapusan data
- Alat opt-out OpenAI yang belum matang: membuat perusahaan makin sulit mencegah crawling

Mengapa masalah crawling ini sangat serius

Crawler AI mengambil data situs web tanpa izin, dan ini menimbulkan masalah besar terutama bagi perusahaan seperti Triplegangers
Sensitivitas data:
- Triplegangers memiliki basis data yang dibuat dengan memindai orang sungguhan
- Penggunaan data tanpa izin dilarang berdasarkan undang-undang privasi seperti GDPR
Daya tarik data:
- Data diberi tag sehingga berguna untuk pelatihan AI
- Contoh: ras, usia, karakteristik tubuh, dan lain-lain ditandai secara rinci

Pelajaran bagi bisnis kecil lainnya

Deteksi bot AI:
- Untuk memeriksa apakah bot AI merayapi situs, pemantauan log itu wajib
- Sebagian besar situs web bahkan tidak tahu bahwa mereka telah dirayapi
Masalah crawling yang makin meningkat:
- Pada 2024, lalu lintas tidak valid (Invalid Traffic) secara umum meningkat 86%
- Crawler AI dan scraper menjadi penyebab utama

Kesimpulan

Masalah crawling oleh bot AI berdampak serius pada bisnis kecil
Perusahaan AI harus meminta izin sebelum mengambil data
Perusahaan kecil perlu secara aktif memanfaatkan robots.txt dan firewall, serta melakukan pemantauan berkelanjutan

4 komentar

crawler 2025-01-14

Kalau 600 IP yang mengakses satu situs itu benar-benar nyata, rasanya memang seperti merayapi dengan gila-gilaan. Tapi bagian bahwa mereka tidak memakai robots.txt agak bikin saya berpikir, “hah?”
Kelihatannya ini perusahaan yang datanya penting dan situsnya juga aktif, jadi setidaknya mulailah dari pengaturan robots.txt, yang paling dasar...

xguru 2025-01-14

Bot OpenAI melumpuhkan situs web perusahaan kecil seperti 'serangan DDoS'

unsure4000 2025-01-14

Saya pikir Cloudflare benar-benar seperti kejahatan yang tak terhindarkan. Ini adalah satu titik serangan tunggal dengan performa yang sangat baik.

GN⁺ 2025-01-14

Komentar Hacker News

Perusahaan AI menyebabkan banyak lalu lintas di forum
- Ada kasus di Read the Docs di mana bot AI menghasilkan lalu lintas lebih dari 10TB
- Ada klaim bahwa OpenAI melakukan scraping data menggunakan 600 IP
- Hanya IP reverse proxy Cloudflare yang tercatat, sehingga IP klien sebenarnya tidak dapat diketahui
- Ada pendapat bahwa menyebutnya sebagai serangan DDOS tidak adil karena log tidak memiliki timestamp dan tidak ada penyebutan tentang kecepatan permintaan
Sebagai pengembang web, ada keluhan terhadap scraper perusahaan AI yang tidak efisien
- Disarankan untuk mengikuti aturan dasar agar tidak membebani situs secara berlebihan
- Scraper perusahaan AI dirasa tidak efisien dan menjengkelkan
Ditunjukkan bahwa artikel tersebut salah menuliskan "robots.txt"
- Menggunakan file log tanpa timestamp sebagai bukti dianggap meragukan
- OpenAI memang tidak sepenuhnya tidak bersalah, tetapi kualitas artikelnya dinilai rendah
Ada pendapat bahwa sejarah web sedang terulang
- Dulu informasi bisa diperoleh melalui API, tetapi sekarang sebagian besar sudah diblokir
- Ada harapan bahwa AI dapat kembali memungkinkan interaksi otomatis semacam ini
Ada ketertarikan pada web crawler pribadi, tetapi sekarang kecewa dengan ekonomi Google yang tidak adil
- Dikhawatirkan bahwa meskipun LLMs bisa memberi banyak utilitas, ketakutan bahwa mereka mencuri kreativitas akan membuat orang menutup akses
Baru-baru ini, orang-orang yang menerbitkan buku di Amazon bersaing dengan tiruan penipuan yang dibuat oleh AI
- Ada kasus BBC yang mewawancarai pengalaman terkait hal ini
Diperingatkan bahwa jika situs tidak menggunakan robots.txt dengan benar, AI dapat melakukan scraping sesuka hati
- Disarankan untuk memeriksa robots.txt
Situs dapat menggunakan HTTP error 429 untuk mengatur kecepatan bot
- Jika bot datang dari subnet, disarankan untuk menerapkannya pada subnet dan bukan pada IP individual

Bot OpenAI melumpuhkan situs web perusahaan kecil seperti 'serangan DDoS'

Tanggapan Triplegangers

Mengapa masalah crawling ini sangat serius

Pelajaran bagi bisnis kecil lainnya

Kesimpulan

Bacaan terkait

4 komentar

Komentar Hacker News