6 poin oleh GN⁺ 2025-01-14 | 4 komentar | Bagikan ke WhatsApp
  • Triplegangers adalah perusahaan kecil yang dijalankan oleh 7 karyawan dan menjual basis data "digital double manusia"
    • Menyediakan file gambar 3D dan foto untuk artis 3D, pembuat video game, dan lainnya
  • Masalah terjadi: bot OpenAI menggunakan lebih dari 600 IP untuk merayapi situs secara berlebihan hingga server down
    • Mencoba mengumpulkan lebih dari 65.000 halaman produk dan ratusan ribu foto
    • Lonjakan permintaan yang "mirip serangan DDoS" seperti ini diperkirakan akan menaikkan biaya AWS
  • GPTBot milik OpenAI bebas merayapi data jika file robots.txt tidak dikonfigurasi dengan benar
    • Aktivitas bot diizinkan secara default kecuali situs memblokirnya secara terpisah
    • robots.txt: file yang menentukan data apa yang tidak boleh dirayapi oleh mesin pencari
    • Triplegangers tidak mengatur file robots.txt situs webnya dengan benar, sehingga bot OpenAI dapat mengikis datanya
  • Masalah tambahan:
    • OpenAI memerlukan waktu hingga 24 jam untuk mengenali permintaan pemblokiran crawling
    • Perusahaan AI lain juga merayapi data dengan cara serupa

Tanggapan Triplegangers

  • Langkah penanganan:
    • Membuat file robots.txt yang dikonfigurasi dengan benar
    • Mengatur akun Cloudflare untuk memblokir GPTBot dan crawler AI lainnya
  • Hasil:
    • Berhasil menstabilkan situs
    • Namun, mereka tidak tahu data apa yang telah diambil OpenAI, dan juga tidak ada cara untuk meminta penghapusan data
    • Alat opt-out OpenAI yang belum matang: membuat perusahaan makin sulit mencegah crawling

Mengapa masalah crawling ini sangat serius

  • Crawler AI mengambil data situs web tanpa izin, dan ini menimbulkan masalah besar terutama bagi perusahaan seperti Triplegangers
  • Sensitivitas data:
    • Triplegangers memiliki basis data yang dibuat dengan memindai orang sungguhan
    • Penggunaan data tanpa izin dilarang berdasarkan undang-undang privasi seperti GDPR
  • Daya tarik data:
    • Data diberi tag sehingga berguna untuk pelatihan AI
    • Contoh: ras, usia, karakteristik tubuh, dan lain-lain ditandai secara rinci

Pelajaran bagi bisnis kecil lainnya

  • Deteksi bot AI:
    • Untuk memeriksa apakah bot AI merayapi situs, pemantauan log itu wajib
    • Sebagian besar situs web bahkan tidak tahu bahwa mereka telah dirayapi
  • Masalah crawling yang makin meningkat:
    • Pada 2024, lalu lintas tidak valid (Invalid Traffic) secara umum meningkat 86%
    • Crawler AI dan scraper menjadi penyebab utama

Kesimpulan

  • Masalah crawling oleh bot AI berdampak serius pada bisnis kecil
  • Perusahaan AI harus meminta izin sebelum mengambil data
  • Perusahaan kecil perlu secara aktif memanfaatkan robots.txt dan firewall, serta melakukan pemantauan berkelanjutan

4 komentar

 
crawler 2025-01-14

Kalau 600 IP yang mengakses satu situs itu benar-benar nyata, rasanya memang seperti merayapi dengan gila-gilaan. Tapi bagian bahwa mereka tidak memakai robots.txt agak bikin saya berpikir, “hah?”
Kelihatannya ini perusahaan yang datanya penting dan situsnya juga aktif, jadi setidaknya mulailah dari pengaturan robots.txt, yang paling dasar...

 
unsure4000 2025-01-14

Saya pikir Cloudflare benar-benar seperti kejahatan yang tak terhindarkan. Ini adalah satu titik serangan tunggal dengan performa yang sangat baik.

 
GN⁺ 2025-01-14
Komentar Hacker News
  • Perusahaan AI menyebabkan banyak lalu lintas di forum

    • Ada kasus di Read the Docs di mana bot AI menghasilkan lalu lintas lebih dari 10TB
    • Ada klaim bahwa OpenAI melakukan scraping data menggunakan 600 IP
    • Hanya IP reverse proxy Cloudflare yang tercatat, sehingga IP klien sebenarnya tidak dapat diketahui
    • Ada pendapat bahwa menyebutnya sebagai serangan DDOS tidak adil karena log tidak memiliki timestamp dan tidak ada penyebutan tentang kecepatan permintaan
  • Sebagai pengembang web, ada keluhan terhadap scraper perusahaan AI yang tidak efisien

    • Disarankan untuk mengikuti aturan dasar agar tidak membebani situs secara berlebihan
    • Scraper perusahaan AI dirasa tidak efisien dan menjengkelkan
  • Ditunjukkan bahwa artikel tersebut salah menuliskan "robots.txt"

    • Menggunakan file log tanpa timestamp sebagai bukti dianggap meragukan
    • OpenAI memang tidak sepenuhnya tidak bersalah, tetapi kualitas artikelnya dinilai rendah
  • Ada pendapat bahwa sejarah web sedang terulang

    • Dulu informasi bisa diperoleh melalui API, tetapi sekarang sebagian besar sudah diblokir
    • Ada harapan bahwa AI dapat kembali memungkinkan interaksi otomatis semacam ini
  • Ada ketertarikan pada web crawler pribadi, tetapi sekarang kecewa dengan ekonomi Google yang tidak adil

    • Dikhawatirkan bahwa meskipun LLMs bisa memberi banyak utilitas, ketakutan bahwa mereka mencuri kreativitas akan membuat orang menutup akses
  • Baru-baru ini, orang-orang yang menerbitkan buku di Amazon bersaing dengan tiruan penipuan yang dibuat oleh AI

    • Ada kasus BBC yang mewawancarai pengalaman terkait hal ini
  • Diperingatkan bahwa jika situs tidak menggunakan robots.txt dengan benar, AI dapat melakukan scraping sesuka hati

    • Disarankan untuk memeriksa robots.txt
  • Situs dapat menggunakan HTTP error 429 untuk mengatur kecepatan bot

    • Jika bot datang dari subnet, disarankan untuk menerapkannya pada subnet dan bukan pada IP individual