GPTBot - perayap web OpenAI

Pengantar tentang GPTBot, perayap web yang dikembangkan oleh OpenAI
Dapat diidentifikasi melalui token user-agent bernama "GPTBot" serta seluruh string user-agent
Halaman web yang dirayapi GPTBot dapat digunakan untuk meningkatkan model AI di masa depan
Perayap ini memfilter sumber yang memerlukan akses paywall, tempat yang diketahui mengumpulkan informasi identitas pribadi (PII), dan teks yang melanggar kebijakan OpenAI
Mengizinkan GPTBot mengakses situs dapat membantu meningkatkan akurasi, kemampuan umum, dan keamanan model AI
Akses GPTBot dapat diblokir dengan menambahkan GPTBot ke robots.txt situs, dan akses ke direktori tertentu di situs juga dapat diizinkan untuk GPTBot
Rentang IP egress yang digunakan perayap dicantumkan secara terpisah di situs web OpenAI

3 komentar

ragingwind 2023-08-08

Akan ada sangat banyak eksperimen, ya?

xguru 2023-08-08

Apakah ini akan membuat pengelola situs web yang memerlukan akses paywall membuka akses bot agar konten mereka bisa ditambahkan ke model ChatGPT?
Saat ini, bahkan situs yang memerlukan akses berbayar pun kadang dibuka untuk bot Google agar bisa di-cache.
Tentu saja, ada juga bot yang memanfaatkannya secara terbalik untuk melakukan crawling, haha

GN⁺ 2023-08-08

Opini Hacker News

Sedang dibahas dampak potensial crawler web OpenAI, GPTBot, terhadap situs web
Beberapa pengguna mengusulkan eksperimen untuk mengembalikan konten yang berbeda kepada GPTBot guna melihat bagaimana hal itu memengaruhi pelatihan model AI
Kekhawatiran tentang GPTBot yang mengabaikan header respons "429 Too Many Requests", yang berpotensi menimbulkan masalah bagi proyek kecil dengan API yang memiliki pembatasan permintaan
Para pengguna mempertanyakan manfaat mengizinkan GPTBot mengakses situs mereka, karena konten mereka dapat digunakan untuk meningkatkan model AI tanpa memberikan manfaat langsung atau kredit kepada pembuat konten asli
Ada kekhawatiran tentang kemungkinan plagiarisme, karena GPTBot dapat memparafrasekan konten dan tidak mengutip sumber, sehingga sulit membuktikan sumber asli materi tersebut
Beberapa pengguna mempertimbangkan untuk memblokir GPTBot karena kekhawatiran ini, tetapi mempertanyakan apakah hal itu justru akan memberi keunggulan kompetitif kepada bot yang tidak menghormati pembatasan semacam ini
Diskusi ini juga menyinggung isu yang lebih luas tentang pelanggaran hak cipta oleh web crawling, dengan beberapa pengguna berargumen bahwa model machine learning yang tidak mengutip sumber harus dianggap bersifat eksploitatif dan berpotensi melanggar hak cipta

GPTBot - perayap web OpenAI

Bacaan terkait

3 komentar

Opini Hacker News