12 poin oleh GN⁺ 2023-08-08 | 3 komentar | Bagikan ke WhatsApp
  • Pengantar tentang GPTBot, perayap web yang dikembangkan oleh OpenAI
  • Dapat diidentifikasi melalui token user-agent bernama "GPTBot" serta seluruh string user-agent
  • Halaman web yang dirayapi GPTBot dapat digunakan untuk meningkatkan model AI di masa depan
  • Perayap ini memfilter sumber yang memerlukan akses paywall, tempat yang diketahui mengumpulkan informasi identitas pribadi (PII), dan teks yang melanggar kebijakan OpenAI
  • Mengizinkan GPTBot mengakses situs dapat membantu meningkatkan akurasi, kemampuan umum, dan keamanan model AI
  • Akses GPTBot dapat diblokir dengan menambahkan GPTBot ke robots.txt situs, dan akses ke direktori tertentu di situs juga dapat diizinkan untuk GPTBot
  • Rentang IP egress yang digunakan perayap dicantumkan secara terpisah di situs web OpenAI

3 komentar

 
ragingwind 2023-08-08

Akan ada sangat banyak eksperimen, ya?

 
xguru 2023-08-08

Apakah ini akan membuat pengelola situs web yang memerlukan akses paywall membuka akses bot agar konten mereka bisa ditambahkan ke model ChatGPT?
Saat ini, bahkan situs yang memerlukan akses berbayar pun kadang dibuka untuk bot Google agar bisa di-cache.
Tentu saja, ada juga bot yang memanfaatkannya secara terbalik untuk melakukan crawling, haha

 
GN⁺ 2023-08-08
Opini Hacker News
  • Sedang dibahas dampak potensial crawler web OpenAI, GPTBot, terhadap situs web
  • Beberapa pengguna mengusulkan eksperimen untuk mengembalikan konten yang berbeda kepada GPTBot guna melihat bagaimana hal itu memengaruhi pelatihan model AI
  • Kekhawatiran tentang GPTBot yang mengabaikan header respons "429 Too Many Requests", yang berpotensi menimbulkan masalah bagi proyek kecil dengan API yang memiliki pembatasan permintaan
  • Para pengguna mempertanyakan manfaat mengizinkan GPTBot mengakses situs mereka, karena konten mereka dapat digunakan untuk meningkatkan model AI tanpa memberikan manfaat langsung atau kredit kepada pembuat konten asli
  • Ada kekhawatiran tentang kemungkinan plagiarisme, karena GPTBot dapat memparafrasekan konten dan tidak mengutip sumber, sehingga sulit membuktikan sumber asli materi tersebut
  • Beberapa pengguna mempertimbangkan untuk memblokir GPTBot karena kekhawatiran ini, tetapi mempertanyakan apakah hal itu justru akan memberi keunggulan kompetitif kepada bot yang tidak menghormati pembatasan semacam ini
  • Diskusi ini juga menyinggung isu yang lebih luas tentang pelanggaran hak cipta oleh web crawling, dengan beberapa pengguna berargumen bahwa model machine learning yang tidak mengutip sumber harus dianggap bersifat eksploitatif dan berpotensi melanggar hak cipta