Siapa pun yang punya kontak internal OpenAI, tolong minta mereka menyelesaikan masalah spider ini
(mailman.nanog.org)Masalah perayapan situs web oleh GPTBot milik OpenAI
-
Penulis mengalami masalah GPTBot milik OpenAI mengunjungi situs webnya, web.sp.am, dan merayapi halaman secara berlebihan
- Sekitar 3 juta halaman diminta per hari, dan 1,8 juta di antaranya adalah permintaan
robots.txt - Situs penulis berbentuk Content Farm dengan struktur 6,859 miliar situs web yang masing-masing memiliki 1 halaman
- Semua halaman tampak hampir sama dan menggunakan IP yang sama serta sertifikat SSL wildcard yang sama, sehingga seharusnya tidak sulit bagi crawler untuk memahami situasinya
- Sekitar 3 juta halaman diminta per hari, dan 1,8 juta di antaranya adalah permintaan
-
Sekitar 1–2 bulan lalu, crawler Amazon juga menimbulkan masalah serupa, tetapi penulis bisa menghubungi mereka dan menghentikan perayapan
-
Penulis menanyakan apakah ada orang yang bisa dihubungi di OpenAI
-
Penulis bercanda bahwa data situs webnya tampaknya sedang digunakan untuk melatih GPT-5
Opini GN⁺
- Crawler yang tidak dapat menafsirkan
robots.txtdengan benar dan mengirim permintaan berlebihan adalah masalah serius yang bisa merugikan layanan pihak lain, meskipun tidak dilakukan dengan niat jahat. OpenAI tampaknya perlu segera memperbaiki logika crawler-nya - Khususnya di tempat yang mengoperasikan sangat banyak domain seperti Content Farm, perlu dipertimbangkan langkah seperti pemfilteran berbasis IP agar tidak merayapi tiap situs secara terpisah
- Tampaknya diperlukan proses dan sistem untuk memantau perilaku bot perayap, mendeteksi tanda-tanda anomali, dan merespons dengan cepat
- Perlu berkomunikasi erat dengan pengelola situs yang menjadi target perayapan agar kerugian dapat diminalkan. Bukan hanya fokus pada pengumpulan data semata, sudut pandang koeksistensi juga penting
1 komentar
Komentar Hacker News
GPT-2/3/J melihat para pengguna di subreddit r/counting memposting angka bertambah hingga tak terhingga, lalu menganggap nama pengguna seperti SolidGoldMagikarp sebagai string yang umum di internet sehingga diperlakukan sebagai token tingkat atas saat tokenisasi.
Kosakata GPT-3 dibatasi pada 50.257 token unik. Diduga ada dampak yang tidak linear tetapi terukur antara peningkatan biaya listrik akibat hobi niche para pengguna subreddit ini dan pengurangan jumlah rata-rata token input dengan mengalokasikan slot pada substring yang umum dalam teks nyata.
Akan lucu jika subjudul situs web, "IECC ChurnWare 0.3", menjadi token di GPT-5.
Pemilik situs web tidak menulis robots.txt dengan benar sehingga bagian yang sebenarnya mengizinkan crawling justru dikomentari.
Muncul rasa ingin tahu tentang tujuan content farm semacam ini. Terlihat tidak bermakna, tetapi diduga ada insentif ekonomi yang aneh. Ada tautan afiliasi, tetapi diragukan seberapa besar pendapatannya.
Sebagian orang berharap memang ada laba-laba sungguhan di server farm OpenAI dan laba-laba itu masuk ke rak yang lain.
Dalam keamanan jaringan, ini disebut tarpit. Ini bisa memperlambat serangan, pemindaian, dan otomatisasi sehingga membuang waktu serta energi penyerang dan memberi waktu bagi pihak bertahan.
Jika OpenAI juga mematuhi robots.txt, maka ada masalah pemblokiran bot dan pengumpulan data. Dari 100 ribu situs web teratas, 11% sudah memblokir crawler, lebih banyak dibanding para pesaing.
Pemilik situs tampaknya tidak terlalu peduli jika jutaan halaman ditelusuri, jadi mungkin lebih baik membiarkan OpenAI melakukan sesukanya.
Pada akhirnya OpenAI dan pihak lain kemungkinan besar akan melatih model dengan konten yang sebagian besar dihasilkan AI dan sering kali sedikit tidak akurat, yang dapat menurunkan kualitas jawaban AI. Saat ini sebagian besar masih berupa konten buatan manusia, tetapi lima tahun lagi mungkin tidak lagi demikian. Ini salah satu masalah yang harus segera diselesaikan industri AI.
Tujuan dari situs web jenis ini sendiri adalah membuang waktu dan sumber daya spider, jadi mengapa tidak melakukan hal itu juga terhadap OpenAI?
Honeypot seperti ini tampak sebagai cara yang menarik untuk mencemari pelatihan LLM.