8 poin oleh GN⁺ 2024-07-25 | 1 komentar | Bagikan ke WhatsApp
  • Google kini menjadi satu-satunya mesin pencari yang dapat menampilkan hasil dari Reddit
  • Reddit baru-baru ini memperbarui file robots.txt-nya untuk memblokir perayapan oleh semua mesin pencari kecuali Google
  • Mesin pencari alternatif yang tidak bergantung pada pengindeksan Google seperti Bing, DuckDuckGo, Mojeek, dan Qwant tidak dapat melihat hasil pencarian Reddit dari 1 minggu terakhir
    • DuckDuckGo menampilkan 7 tautan saat mencari Reddit, tetapi tidak memberikan informasi tentang tujuan tautan tersebut atau alasannya
    • Kagi dapat melakukan pencarian Reddit karena membeli sebagian indeks pencarian Google
  • Ini terjadi pada saat monopoli pencarian Google dinilai menghambat kemampuan perusahaan lain untuk bersaing
  • Reddit dan Google tidak menanggapi permintaan komentar dari pers terkait hal ini, tetapi tampaknya pengecualian mesin pencari lain disebabkan oleh kontrak bernilai jutaan dolar yang memberi Google hak untuk mengikis data Reddit guna melatih produk AI-nya

Tanggapan CEO Mojeek

  • Colin Hayhurst, CEO Mojeek, mengatakan bahwa pada awal Juni Mojeek menemukan perayapan ke Reddit diblokir dan telah menghubungi lewat email, tetapi tidak menerima balasan
  • Hayhurst mengatakan, "Terkadang kami diblokir karena ketidaktahuan atau kebodohan, tetapi biasanya bisa diselesaikan setelah kami menghubungi mereka. Kali ini, tidak ada satu pun balasan dari siapa pun, sesuatu yang belum pernah terjadi sebelumnya"
  • Selain memblokir crawler, Reddit juga disebut secara aktif memblokir crawler milik Mojeek

Tren meningkatnya pemblokiran scraping data oleh perusahaan AI

  • Banyak situs web memperbarui file robots.txt mereka, dan upaya memblokir bot perusahaan AI yang mengikis data pelatihan meningkat tajam
  • Google baru-baru ini memperkenalkan dua crawler: Googlebot untuk meningkatkan hasil pencarian, dan Google-Extended untuk meningkatkan aplikasi Gemini
  • File robots.txt hanyalah pedoman sederhana, dan crawler dapat mengabaikannya

Latar belakang langkah Reddit

  • Reddit telah lama tidak puas dengan perusahaan AI yang mengikis situsnya untuk melatih model bahasa besar, dan telah mengambil langkah terbuka serta agresif untuk menghentikannya
  • Tahun lalu, Reddit mulai mengenakan biaya untuk akses API, sehingga banyak aplikasi pihak ketiga menjadi terlalu mahal untuk dijalankan dan akhirnya dihentikan
  • Awal tahun ini, Reddit menandatangani kontrak senilai 60 juta dolar dengan Google yang mengizinkan Google melisensikan konten Reddit untuk melatih produk AI

Perubahan pada file robots.txt Reddit

  • Sebelumnya bentuknya rumit dan berisi lelucon, tetapi belakangan menjadi sederhana dan ketat
  • Saat ini hanya berisi instruksi User-agent: *, Disallow: /, yang berarti tidak ada bot yang boleh mengikis bagian mana pun dari situs
  • Reddit menyatakan bahwa mereka "percaya pada internet terbuka, tetapi tidak dapat menoleransi penyalahgunaan konten publik"

Posisi Reddit

  • Belakangan ini semakin banyak entitas komersial yang mengikis Reddit sambil mengklaim bahwa mereka tidak terikat oleh syarat layanan maupun kebijakan
  • Bersembunyi di balik robots.txt lalu mengatakan bahwa konten Reddit dapat digunakan untuk tujuan apa pun adalah masalah yang lebih serius
  • Mereka akan berusaha sebaik mungkin untuk menemukan dan memblokir pelaku jahat secara proaktif, tetapi dibutuhkan upaya lebih besar untuk melindungi kontribusi para Redditor
  • Ke depan, Reddit akan memperbarui panduan robots.txt agar sejelas mungkin. Jika mengakses Reddit dengan agen otomatis, pihak tersebut harus mematuhi syarat layanan dan kebijakan serta berkomunikasi dengan Reddit

Akses data Reddit untuk tujuan nonkomersial masih dimungkinkan

  • Reddit menyatakan bahwa "aktor beritikad baik (peneliti, Internet Archive, dan lainnya) akan tetap dapat mengakses konten Reddit untuk tujuan nonkomersial"
  • Reddit mengatakan akan secara selektif menentukan pihak tepercaya yang dapat memperoleh akses skala besar ke data Reddit
  • Menurut panduan akses data Reddit, "pencarian atau iklan situs web" dianggap sebagai "penggunaan komersial", sehingga data Reddit tidak dapat digunakan tanpa izin atau pembayaran biaya

Implikasi dari kenyataan bahwa hanya Google yang mendukung pencarian Reddit

  • Di tengah relevansi pencarian Google yang makin menurun, salah satu cara yang masih efektif untuk mendapatkan hasil pencarian yang bagus adalah menambahkan kata "Reddit" pada kueri pencarian
  • Ini karena selama hampir 20 tahun, pengguna nyata telah meninggalkan saran dan rekomendasi di Reddit
  • Kini hanya Google yang dapat mengarahkan pengguna ke informasi seperti ini, dan fakta bahwa ini merupakan hasil dari kontrak 60 juta dolar yang terkait dengan data pelatihan AI menjadi contoh lain dari konsekuensi tak disengaja dari pengikisan internet secara membabi buta demi memperkuat alat AI generatif

Kekhawatiran CEO Mojeek

  • Selama 20 tahun, Mojeek telah merayapi web dengan penuh penghormatan dan merupakan mesin pencari tradisional yang tidak melatih AI maupun melacak pengguna
  • Kontrak Reddit dengan Google membuat makin sulit menyediakan cara alternatif untuk menjelajahi web
  • Ini adalah bagian dari tren yang lebih luas yang secara bertahap mematikan dan mengikis web
  • Kejadian ini tidak membantu perusahaan kecil

Opini GN⁺

  • Langkah Reddit ditujukan untuk melindungi hak pembuat konten dan mencegah penyalahgunaan komersial, tetapi bisa berujung pada penghambatan persaingan di pasar mesin pencari
  • Khususnya, situasi ketika Google memonopoli data Reddit untuk pelatihan AI menimbulkan kekhawatiran akan penyalahgunaan dominasi pasar oleh Google
  • Dalam jangka panjang, tampaknya mendesak untuk menyiapkan norma dan kebijakan yang memungkinkan koeksistensi antara penyedia konten, mesin pencari, dan perusahaan AI
  • Di sisi lain, ironis bahwa pencarian Reddit justru menonjol sebagai alternatif atas penurunan kualitas pencarian. Pada dasarnya, mesin pencari perlu berupaya meningkatkan relevansi dan keberagaman hasil
  • Pertumbuhan mesin pencari baru seperti Kagi, yang memanfaatkan sebagian indeks pencarian Google sambil mencari pendekatan yang lebih mandiri, juga patut diperhatikan

1 komentar

 
GN⁺ 2024-07-25
Opini Hacker News
  • Perubahan robots.txt Reddit bisa dipahami dalam konteks AI, tetapi bersifat anti-persaingan terhadap mesin pencari lain
  • Ini bisa menjadi preseden berbahaya bagi internet
  • Banyak situs bisa memiliki kekuatan untuk mengenakan biaya atas pengindeksan
  • Kita bisa memasuki dunia di mana kita harus memakai mesin pencari tertentu untuk mendapatkan jawaban dari situs tertentu
  • Dari sudut pandang efisiensi, akan lebih baik jika situs web menyewakan data mereka ke mesin pencari
  • Secara realistis, saat ini hanya ada dua mesin pencari
  • Ini adalah situasi yang sangat buruk bagi Kagi, tetapi ada juga kemungkinan web nonkomersial yang dulu dikelola sebagai hobi akan ditemukan kembali
  • Menurut hukum AS, perubahan pada robots.txt atau syarat penggunaan tidak mengikat web scraper
    • Karena datanya dapat diakses secara publik
    • Bahkan jika situs menampilkan banner persetujuan syarat saat digunakan, itu tetap tidak mengikat
    • Agar mengikat, akses ke data harus dibatasi dan hanya bisa dilakukan setelah membuat akun
  • Reddit mengubah robots.txt-nya sebulan lalu
    • Selama 19 tahun mereka menggunakan robots.txt yang sangat longgar
    • Tampaknya perubahan itu dilakukan karena penyalahgunaan data
    • Ada kemungkinan akan dibuka lagi jika mesin pencari setuju untuk tidak menggunakannya dalam pelatihan data
  • Masalah bot AI yang mengikis situs untuk melatih LLM makin menjadi serius
    • Contoh: situs thegreatestbooks.org menerima 1,2 juta permintaan bot/otomatis dalam 24 jam
  • Reddit menjadi satu-satunya mesin pencari yang berfungsi di Google
  • Sulit memahami apakah tindakan Reddit ini tidak bersifat anti-persaingan
    • Seharusnya juga diberikan kepada pesaing Google dengan syarat yang serupa