Siapa pun yang punya kontak internal OpenAI, tolong minta mereka menyelesaikan masalah spider ini

(mailman.nanog.org)

2 poin oleh GN⁺ 2024-04-12 | 1 komentar | Bagikan ke WhatsApp

Masalah perayapan situs web oleh GPTBot milik OpenAI

Penulis mengalami masalah GPTBot milik OpenAI mengunjungi situs webnya, web.sp.am, dan merayapi halaman secara berlebihan
- Sekitar 3 juta halaman diminta per hari, dan 1,8 juta di antaranya adalah permintaan robots.txt
- Situs penulis berbentuk Content Farm dengan struktur 6,859 miliar situs web yang masing-masing memiliki 1 halaman
- Semua halaman tampak hampir sama dan menggunakan IP yang sama serta sertifikat SSL wildcard yang sama, sehingga seharusnya tidak sulit bagi crawler untuk memahami situasinya
Sekitar 1–2 bulan lalu, crawler Amazon juga menimbulkan masalah serupa, tetapi penulis bisa menghubungi mereka dan menghentikan perayapan
Penulis menanyakan apakah ada orang yang bisa dihubungi di OpenAI
Penulis bercanda bahwa data situs webnya tampaknya sedang digunakan untuk melatih GPT-5

Opini GN⁺

Crawler yang tidak dapat menafsirkan robots.txt dengan benar dan mengirim permintaan berlebihan adalah masalah serius yang bisa merugikan layanan pihak lain, meskipun tidak dilakukan dengan niat jahat. OpenAI tampaknya perlu segera memperbaiki logika crawler-nya
Khususnya di tempat yang mengoperasikan sangat banyak domain seperti Content Farm, perlu dipertimbangkan langkah seperti pemfilteran berbasis IP agar tidak merayapi tiap situs secara terpisah
Tampaknya diperlukan proses dan sistem untuk memantau perilaku bot perayap, mendeteksi tanda-tanda anomali, dan merespons dengan cepat
Perlu berkomunikasi erat dengan pengelola situs yang menjadi target perayapan agar kerugian dapat diminalkan. Bukan hanya fokus pada pengumpulan data semata, sudut pandang koeksistensi juga penting

1 komentar

GN⁺ 2024-04-12

Komentar Hacker News

Ini mengingatkan pada saat GPT-2/3/J pernah terpapar https://reddit.com/r/counting. Itu adalah tempat pengguna Reddit menghitung tanpa batas dengan menaikkan angka satu per satu, dan tampaknya nama pengguna seperti SolidGoldMagikarp terlihat sebagai string yang terlalu umum di internet sehingga dalam proses tokenisasi diperlakukan seperti token mandiri
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
Kosakata tidak tak terbatas, dan kabarnya kosakata GPT-3 pun hanya berisi 50.257 token. Saya penasaran apakah selisih antara biaya listrik tambahan yang timbul karena hobi ceruk di Reddit ini dan pengurangan rata-rata jumlah token input jika slot itu dialokasikan untuk substring yang lebih umum dalam teks nyata mungkin dapat diukur
Akan lucu kalau subjudul situs OP, IECC ChurnWare 0.3, menjadi token GPT-5
- Saya penasaran seberapa besar penyebab halusinasi berasal dari konten asli, alih-alih merupakan sifat inheren model bahasa besar itu sendiri. Di forum internet, kalau ada pertanyaan yang jawabannya tidak saya tahu, saya juga tidak akan repot menulis “Saya tidak tahu”
  Memang, di tempat yang bukan percakapan satu lawan satu, jawaban “Saya tidak tahu” umumnya tidak berguna. Dalam sebuah grup, jika seseorang tidak tahu, diam saja sudah menunjukkan hal itu
- Saat tokenisasi, nama pengguna menjadi token, tetapi sebelum model sebenarnya dilatih, teks semacam itu sudah dihapus dari data pelatihan. Jadi model tidak pernah dilatih dengan teks yang memuat token tersebut. Akibatnya muncul token glitch yang tidak terhubung dengan makna apa pun
- Computerphile juga punya pembahasan tentang token glitch
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- Saat ini ukuran kosakata yang paling umum adalah 32k
Saya justru lebih penasaran untuk apa content farm itu dibuat. Kelihatannya tak bermakna, tetapi rasanya ada insentif ekonomi yang aneh. Memang ada tautan afiliasi, tetapi seberapa banyak yang bisa dihasilkan dari itu?
- Ini adalah honeypot. Penulisnya, https://en.wikipedia.org/wiki/John_R._Levine, memelihara farm kecil ini agar setiap kali ada operasi scraping baru berskala besar dimulai, operasi itu pasti mengenai farm ini dan tercatat di log
  Ia adalah tokoh antispam terkenal yang sudah aktif dalam berbagai kegiatan selama puluhan tahun. Menyelipkan tautan landing page secara natural di pesan NANOG juga merupakan cara agar bot memakan umpan
- Nama John Levine dari iecc.com saya ingat dari era Web 1.0 sebagai Invincible Electric Calculator Company. Ia adalah pengelola newsgroup Usenet comp.compilers dan menulis compiler C pertama untuk IBM PC RT
  https://compilers.iecc.com/
- Kelihatannya lebih seperti honeypot untuk bot. Tujuannya cukup mirip
- Linkers & Loaders memang buku yang ia tulis. Buku-buku lain belum saya cek
  Di halaman https://www.iecc.com/linker/, dulu draf bukunya tersedia dalam beberapa format. Ketika muncul di https://news.ycombinator.com/item?id=18424233, saya menggabungkan berkas-berkasnya untuk dibaca offline, lalu setelah itu teksnya berubah menjadi “tidak lagi disediakan karena pembajakan kronis”
  Saya bertanya lewat email apakah itu tidak apa-apa, tetapi mendapat balasan tidak ramah yang mengatakan saya membajak berkas tersebut, jadi saya menurunkan tautannya dan pihak sana mengubah teksnya. Saya memang bukan penulis bukunya, mereka yang penulisnya, jadi itu hak mereka. Namun saya menyarankan agar di halaman itu ditulis saja apa yang mereka tidak ingin orang lakukan, tetapi mereka memilih cara yang lebih radikal
- Itu dibuat hanya untuk bersenang-senang dan sekarang menjalankan perannya dengan sangat baik. Tidak semua hal harus punya tujuan ekonomi, 100 pelacak, iklan, atau sponsor perusahaan
Apa cuma saya yang berharap isinya tentang laba-laba sungguhan yang menyerbu farm server OpenAI lalu merayap masuk ke rak-rak milik orang lain? Saya tahu itu tidak mungkin, tetapi sempat berharap begitu
- Saya berharap isinya tentang sekumpulan besar kata kunci yang menghasilkan gambar laba-laba
robots.txt-nya tidak disiapkan dengan benar. Bagian yang benar-benar memblokir justru dikomentari
Disallow: / untuk Amazonbot dan GPTBot sama-sama dikomentari, dan yang saat ini berlaku hanya pemblokiran /archive untuk User-agent: *
- Isinya sudah berubah antara waktu itu dan sekarang
Jika mengikuti robots.txt, OpenAI punya masalah pemblokiran bot sekaligus pengumpulan data: https://x.com/AznWeng/status/1777688628308681000
Di antara 100 ribu situs web teratas, 11% sudah memblokir crawler OpenAI, lebih banyak daripada gabungan para pesaingnya: Google, FB, Anthropic, dan Perplexity
- Ini bukan hanya masalah untuk pelatihan, tetapi juga untuk pengguna akhir. Sudah sering saya bertanya atau meminta ringkasan tentang artikel panjang, tetapi karena sistem mengatakan tidak bisa membacanya sendiri, akhirnya saya harus menyalin dan menempel teksnya ke jendela chat
  Mengingat sifat robots.txt yang tidak mengikat, dan dalam konteks lain mereka tampaknya cukup tidak ragu menyedot data publik, agak mengejutkan bahwa hal seperti ini dibiarkan menjadi hambatan bagi pengalaman pengguna
Saya rasa biarkan saja. Kalau menginginkan internet, inilah internet yang sebenarnya. Karena dia tampaknya tidak terlalu peduli bahwa mereka mengambil jutaan halaman, ya biarkan saja
- Ada dampak kinerja bagi pengguna sah lain di web farm itu
- Sebagian scraper menghormati robots.txt. OpenAI tidak. SP hanya memberi tahu dunia tentang fakta itu
- Bahkan CTO-nya bilang tidak tahu data itu berasal dari mana
- Justru itu intinya. Yang dia keluhkan adalah OpenAI tidak menghormati robots.txt
Di dunia keamanan jaringan, hal seperti ini disebut tarpit. Dengan mengirim data sangat lambat atau memicu rekursi tak terbatas, kita bisa memperlambat serangan, pemindaian, dan otomasi lainnya
Akibatnya, waktu dan energi penyerang terbuang, dan kita mungkin mendapat waktu untuk memperkuat pertahanan di pihak kita
- Dari isi emailnya, kesannya ini hanya honeypot. Tidak terlihat ada penundaan saat konten dikembalikan
  Tarpit berbeda karena dirancang untuk memperlambat pemindaian atau scraping dan sengaja membuang sumber daya pihak lawan. Ada berbagai teknik, tetapi kebanyakan membatasi respons atau kecepatan respons secara eksponensial
Pada 2011, hal serupa pernah terjadi ketika proyek picolisp merilis ‘ticker’ semacam rantai Markov yang menghasilkan halaman secara instan
https://picolisp.com/wiki/?ticker
Ini bentuk honeypot yang lumayan bagus
Pada akhirnya, hampir semua perusahaan seperti OpenAI akan melatih model dengan konten buatan AI, dan dari sudut pandang Q&A konten seperti itu cukup sering sedikit keliru, sehingga kualitas respons AI yang dilatih dengannya juga akan cepat memburuk
Saat ini sebagian besar konten internet ditulis manusia, tetapi dalam 5 tahun bisa jadi tidak demikian. Menurut saya ini salah satu masalah besar yang harus segera diselesaikan bidang AI. Seperti pepatah lama, sampah masuk, sampah keluar
- Titik akhir pelatihan teks web sejak awal memang selalu ouroboros. Sebab insentif teknologi iklan mendorong produksi massal konten berkualitas rendah demi memperoleh pendapatan yang sangat kecil
  Ironi dari semua situasi ini sangat kejam
- Tidak akan ada lagi konten seperti hutan primer untuk dikeruk, tetapi konten yang diinginkan manusia tetap akan menjadi yang paling populer, dipromosikan, dikurasi, dan diedit. Sekalipun melatih dengan konten organik menjadi mustahil, mendapatkan konten yang baik tetap mungkin
- Ini masalah yang sudah terpecahkan. Lihat saja bagaimana Microsoft melatih Phi. Mereka membuat data sintetis berbasis buku teks dengan model yang sudah ada, sehingga bisa membuat dataset baru berbasis “fakta” dengan kualitas jauh lebih tinggi daripada Common Crawl dan semacamnya
  Ini tampaknya lebih dekat ke masalah bootstrapping daripada ouroboros
- Ke depan semuanya akan menjadi multimodal, dan model akan dilatih serta melakukan inferensi dari umpan jaringan sensor terdistribusi. Itu mencakup radio, optik, akustik, akselerometer, getaran, sensor di dalam ponsel, dan banyak sensor lainnya
  Menurut saya era transformer yang hanya menangani teks sudah berlalu
- Saya tidak tahu mengapa ada yang berpikir OpenAI dan kawan-kawannya pada akhirnya akan melatih hampir seluruhnya dengan konten buatan AI. Kemungkinan konten buatan AI di internet akan lebih banyak daripada konten nyata memang besar, dan mungkin sudah terjadi, tetapi tidak ada alasan untuk berasumsi perusahaan AI tidak akan menyadarinya dan menyesuaikan metode pelatihan mereka
Saya kira OpenAI memang membaca robots.txt, tetapi tetap mengindeksnya. Hanya saja mungkin mereka menyisakan tanda bahwa itu adalah konten yang seharusnya tidak boleh diindeks
- Lalu konten seperti itu tampaknya akan diberi bobot dua kali lipat dalam pelatihan

Siapa pun yang punya kontak internal OpenAI, tolong minta mereka menyelesaikan masalah spider ini

Masalah perayapan situs web oleh GPTBot milik OpenAI

Opini GN⁺

Bacaan terkait

1 komentar

Komentar Hacker News