- Cloudflare memperkenalkan pengaturan baru yang secara default memblokir scraper data A.I.
- Pemilik situs web akan secara otomatis memblokir crawling oleh bot AI kecuali mereka memberikan izin
- Langkah ini memperkuat peran perlindungan konten internet terkait pengumpulan data berkualitas tinggi yang dibutuhkan untuk pelatihan model AI
- Pembuat konten dan media terus menyuarakan kekhawatiran atas penggunaan data tanpa izin
- Sengketa hukum antara perusahaan AI dan pemilik konten makin sering terjadi
Cloudflare memperkenalkan fitur pemblokiran default untuk scraper data AI
- Cloudflare adalah perusahaan teknologi yang menyediakan layanan manajemen trafik online dan keamanan
- Seiring meningkatnya praktik perusahaan AI yang mengumpulkan data situs web tanpa izin, Cloudflare memperkenalkan pengaturan baru berbasis izin yang memungkinkan pelanggan secara otomatis memblokir akses scraper data AI
Kebijakan default baru dan perubahannya
- Melalui fitur yang baru diperkenalkan ini, situs web dapat secara default memblokir crawling otomatis (scraping) oleh bot AI
- Jika crawling data diperlukan, pemilik situs web harus secara terpisah memberikan izin akses secara manual
- Sebelumnya, bot yang tidak dianggap Cloudflare sebagai peretas atau pelaku berbahaya dapat dengan bebas mengumpulkan informasi situs web
Alasan perubahan kebijakan Cloudflare
- CEO Cloudflare Matthew Prince menekankan bahwa langkah ini dimaksudkan untuk "melindungi konten asli di internet dan memperkuat hak penerbit web"
- Jika perusahaan AI memanfaatkan data internet tanpa izin, akan muncul masalah berupa berkurangnya insentif bagi pembuat konten untuk menghasilkan konten baru
- Jaringan Cloudflare menangani sekitar 20% dari trafik internet global
- Aktivitas crawler AI di web belakangan ini meningkat tajam, sehingga kebijakan ini didorong sebagai respons
Data AI dan konflik industri yang makin tajam
- Persaingan pengumpulan data skala besar untuk pengembangan model AI oleh OpenAI, Anthropic, Google, dan lainnya semakin ketat
- Data web berkualitas tinggi memainkan peran penting dalam kecanggihan model AI dan kualitas hasilnya
- Akibatnya, operator situs web, perusahaan media, dan pemegang hak cipta memprotes pengumpulan data tanpa izin dan tanpa kompensasi
Contoh meluasnya sengketa hukum
- Pada Juni 2025 Reddit menggugat Anthropic, dan pada 2023 The New York Times menggugat OpenAI dan Microsoft, masing-masing dengan alasan penggunaan tanpa izin atas data pelatihan AI dan pelanggaran hak cipta
- OpenAI dan Microsoft membantah tuduhan pelanggaran hak cipta tersebut
Kesimpulan
- Kebijakan baru Cloudflare berupa pemblokiran default atas pengumpulan data AI memberikan dampak besar pada standar etika dan hukum akses serta pemanfaatan data antara industri AI dan pemilik konten
- Perubahan kebijakan ini menjadi momentum penting dalam membentuk standar perlindungan hak konten dan persetujuan awal di dalam ekosistem AI.
2 komentar
Cloudflare memperkenalkan model bayar per perayapan (pay-per-crawl) untuk bot AI
Opini Hacker News
robots.txtberubah otomatis. Saya tidak yakin ada perilaku tambahan lain. Pengaturan untuk memblokir berbagai bot dan crawler AI ditambahkan ke filerobots.txt."User-agent: CCBot disallow: /", muncul pertanyaan apakah CCBot(Common Crawl) memang khusus untuk AI. CCBot sebenarnya sudah lama diblokir di banyakrobots.txt. Saya penasaran apakah Common Crawl benar-benar bisa mengendalikan cara konten digunakan, dan jika CC bergantung pada fair use, apakah mereka benar-benar punya hak untuk menagih biaya lisensi atau memberi izin penggunaan turunan. Saya juga ragu apakah syarat layanan situs web sering kali benar-benar mengizinkan operator situs untuk melisensikan ulang konten milik orang lain (pengguna) untuk keperluan LLM dan membagikan pendapatannya.robots.txtmereka justru secara khusus masih mengizinkan penggunaan untuk 'AI RAG(Retrieval Augmented Generation)', padahal dibanding pelatihan model bahasa, RAG justru lebih langsung merusak pendapatan penulis secara real-time.user-agentmengandungbotdan meminta file selainrobots.txt,humans.txt, ataufavicon.ico, saya merespons dengan status 444 (menutup koneksi seketika). Sebagian besar mesin pencari saya perlakukan sebagai blackhole pada blok CIDR. Mungkin saya satu-satunya yang melakukannya seperti ini."420 Enhance Your Calm"tautan referensi.robots.txtdan berperilaku jujur melalui aturan yang sudah diprakonfigurasi, tetapi karena beberapa perusahaan seperti Perplexity sudah menyamarkan trafiknya, muncul pertanyaan apakah pemblokiran ini justru hanya merugikan bot yang jujur dan mendorong penyamaran. Fenomena ini, yakni perlombaan senjata, sudah berlangsung selama 20 tahun dan bukan hal baru. Berkat sinyal global, bot scoring, dan fingerprinting trafik milik Cloudflare, bot AI yang menyamar juga bisa diidentifikasi dengan cukup baik. Tautan penjelasan terkait juga dibagikan referensi blog.cloudflare.comrobots.txtatauuser agent, melainkan menganalisis pola trafik. Akibatnya, alat saya bahkan perlu aturan bypass tersendiri agar bisa berfungsi.robots.txt, ada ruang untuk mengizinkan bot agar tidak diklasifikasikan sebagai jahat di level situs, tetapi selebihnya akan diproses dengan cara khas Cloudflare.robots.txt? Mungkin hanya sebagian crawler publik yang mematuhinya, sementara di bawah permukaan mereka tetap menjalankan crawling dengan cara tersembunyi. Mereka memang punya riwayat mengambil dan memakai buku, gambar, hingga data pengguna secara ilegal.robots.txtpada dasarnya hanyalah konvensi, tanpa paksaan hukum atau teknis yang jelas. Memang syarat layanan bisa mencantumkan klausul kepatuhan terhadap kebijakanrobots.txt, tetapi efektivitas nyatanya diragukan.robots.txtseperti browser untuk keperluan riset, atau hanya untuk tujuan pengindeksan.