- Triplegangers adalah perusahaan kecil yang dijalankan oleh 7 karyawan dan menjual basis data "digital double manusia"
- Menyediakan file gambar 3D dan foto untuk artis 3D, pembuat video game, dan lainnya
- Masalah terjadi: bot OpenAI menggunakan lebih dari 600 IP untuk merayapi situs secara berlebihan hingga server down
- Mencoba mengumpulkan lebih dari 65.000 halaman produk dan ratusan ribu foto
- Lonjakan permintaan yang "mirip serangan DDoS" seperti ini diperkirakan akan menaikkan biaya AWS
- GPTBot milik OpenAI bebas merayapi data jika file robots.txt tidak dikonfigurasi dengan benar
- Aktivitas bot diizinkan secara default kecuali situs memblokirnya secara terpisah
- robots.txt: file yang menentukan data apa yang tidak boleh dirayapi oleh mesin pencari
- Triplegangers tidak mengatur file robots.txt situs webnya dengan benar, sehingga bot OpenAI dapat mengikis datanya
- Masalah tambahan:
- OpenAI memerlukan waktu hingga 24 jam untuk mengenali permintaan pemblokiran crawling
- Perusahaan AI lain juga merayapi data dengan cara serupa
Tanggapan Triplegangers
- Langkah penanganan:
- Membuat file robots.txt yang dikonfigurasi dengan benar
- Mengatur akun Cloudflare untuk memblokir GPTBot dan crawler AI lainnya
- Hasil:
- Berhasil menstabilkan situs
- Namun, mereka tidak tahu data apa yang telah diambil OpenAI, dan juga tidak ada cara untuk meminta penghapusan data
- Alat opt-out OpenAI yang belum matang: membuat perusahaan makin sulit mencegah crawling
Mengapa masalah crawling ini sangat serius
- Crawler AI mengambil data situs web tanpa izin, dan ini menimbulkan masalah besar terutama bagi perusahaan seperti Triplegangers
- Sensitivitas data:
- Triplegangers memiliki basis data yang dibuat dengan memindai orang sungguhan
- Penggunaan data tanpa izin dilarang berdasarkan undang-undang privasi seperti GDPR
- Daya tarik data:
- Data diberi tag sehingga berguna untuk pelatihan AI
- Contoh: ras, usia, karakteristik tubuh, dan lain-lain ditandai secara rinci
Pelajaran bagi bisnis kecil lainnya
- Deteksi bot AI:
- Untuk memeriksa apakah bot AI merayapi situs, pemantauan log itu wajib
- Sebagian besar situs web bahkan tidak tahu bahwa mereka telah dirayapi
- Masalah crawling yang makin meningkat:
- Pada 2024, lalu lintas tidak valid (Invalid Traffic) secara umum meningkat 86%
- Crawler AI dan scraper menjadi penyebab utama
Kesimpulan
- Masalah crawling oleh bot AI berdampak serius pada bisnis kecil
- Perusahaan AI harus meminta izin sebelum mengambil data
- Perusahaan kecil perlu secara aktif memanfaatkan robots.txt dan firewall, serta melakukan pemantauan berkelanjutan
4 komentar
Kalau 600 IP yang mengakses satu situs itu benar-benar nyata, rasanya memang seperti merayapi dengan gila-gilaan. Tapi bagian bahwa mereka tidak memakai
robots.txtagak bikin saya berpikir, “hah?”Kelihatannya ini perusahaan yang datanya penting dan situsnya juga aktif, jadi setidaknya mulailah dari pengaturan
robots.txt, yang paling dasar...Bot OpenAI melumpuhkan situs web perusahaan kecil seperti 'serangan DDoS'
Saya pikir Cloudflare benar-benar seperti kejahatan yang tak terhindarkan. Ini adalah satu titik serangan tunggal dengan performa yang sangat baik.
Komentar Hacker News
Perusahaan AI menyebabkan banyak lalu lintas di forum
Sebagai pengembang web, ada keluhan terhadap scraper perusahaan AI yang tidak efisien
Ditunjukkan bahwa artikel tersebut salah menuliskan "robots.txt"
Ada pendapat bahwa sejarah web sedang terulang
Ada ketertarikan pada web crawler pribadi, tetapi sekarang kecewa dengan ekonomi Google yang tidak adil
Baru-baru ini, orang-orang yang menerbitkan buku di Amazon bersaing dengan tiruan penipuan yang dibuat oleh AI
Diperingatkan bahwa jika situs tidak menggunakan robots.txt dengan benar, AI dapat melakukan scraping sesuka hati
Situs dapat menggunakan HTTP error 429 untuk mengatur kecepatan bot