- Pengantar tentang GPTBot, perayap web yang dikembangkan oleh OpenAI
- Dapat diidentifikasi melalui token user-agent bernama "GPTBot" serta seluruh string user-agent
- Halaman web yang dirayapi GPTBot dapat digunakan untuk meningkatkan model AI di masa depan
- Perayap ini memfilter sumber yang memerlukan akses paywall, tempat yang diketahui mengumpulkan informasi identitas pribadi (PII), dan teks yang melanggar kebijakan OpenAI
- Mengizinkan GPTBot mengakses situs dapat membantu meningkatkan akurasi, kemampuan umum, dan keamanan model AI
- Akses GPTBot dapat diblokir dengan menambahkan GPTBot ke
robots.txt situs, dan akses ke direktori tertentu di situs juga dapat diizinkan untuk GPTBot
- Rentang IP egress yang digunakan perayap dicantumkan secara terpisah di situs web OpenAI
3 komentar
Akan ada sangat banyak eksperimen, ya?
Apakah ini akan membuat pengelola situs web yang memerlukan akses paywall membuka akses bot agar konten mereka bisa ditambahkan ke model ChatGPT?
Saat ini, bahkan situs yang memerlukan akses berbayar pun kadang dibuka untuk bot Google agar bisa di-cache.
Tentu saja, ada juga bot yang memanfaatkannya secara terbalik untuk melakukan crawling, haha
Opini Hacker News