1 poin oleh GN⁺ 2025-01-19 | 1 komentar | Bagikan ke WhatsApp
  • Server Git saya menjadi tidak stabil karena crawler AI Amazon

  • Blog dukungan: Jika Anda menikmati blog ini, Anda dapat mendukung Xe di Patreon

  • Berlangganan Patreon: Iklan EthicalAds

  • Perbaikan (2025-01-18 23:50 UTC): Saya menulis sebuah proxy yang melakukan pemeriksaan bukti kerja sebelum mengizinkan permintaan ke server Gitea. Namanya Anubis, dan saya berencana menulis posting blog tentangnya segera. Saat ini dapat dilihat di https://git.xeserv.us/. Masih agak kasar, tetapi sudah bekerja dengan cukup baik

  • Perbaikan (2025-01-18 19:00 UTC): Saya menyerah. Saya memindahkan server Gitea ke balik VPN. Saya sedang mengerjakan reverse proxy bukti kerja untuk melindungi server dari bot. Akan saya hidupkan lagi segera

  • Perbaikan (2025-01-17 17:50 UTC): Saya menambahkan cuplikan berikut ke konfigurasi ingress:

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    Bot masih menyerang dari IP lain. Sekitar 10% permintaan tidak memiliki user-agent amazonbot. Saya tidak tahu harus melakukan apa selanjutnya. Saya benci masa depan

  • Permintaan bantuan: Saya meminta seseorang yang menjalankan AmazonBot untuk menambahkan git.xeserv.us ke daftar domain yang diblokir. Jika Anda mengenal seseorang di Amazon, saya harap Anda dapat meneruskan pesan ini. Jika mereka ingin merayapi server Git saya, saya berharap mereka menghubungi saya agar dapat membayar biaya yang sebanding dengan upgrade perangkat keras. Saya tidak ingin menutup server Gitea dari publik, tetapi jika perlu saya akan melakukannya. Memblokir bot crawler AI itu sia-sia. Bot berbohong, mengganti user-agent, dan menggunakan alamat IP residensial sebagai proxy. Saya hanya ingin permintaannya berhenti

  • Saya sudah mengatur file robots.txt untuk memblokir semua bot:

    User-agent: *
    Disallow: /
    

    Saya tidak tahu lagi apa yang harus dilakukan

1 komentar

 
GN⁺ 2025-01-19
Komentar Hacker News
  • Bisa mencoba menyelesaikan masalah dengan meminta pengacara menulis surat "cease and desist" yang tegas lalu mengirimkannya ke Amazon

    • Jika Amazon tidak berhenti, perhatian bisa ditarik lewat pengaduan pidana
  • Ada usulan untuk memblokir crawler AI dengan menambahkan tautan yang tidak akan dikunjungi manusia di situs web lalu melarangnya di robots.txt

    • Jika suatu alamat IP mengunjungi tautan tersebut, maka diblokir selama 24 jam
  • Bot AI dan SEO hampir tidak pernah mematuhi robots.txt dan sulit diblokir

    • Jika crawler AI ingin mengakses, mereka harus mengikuti aturan atau membayar biaya
  • Ada kemungkinan pihak lain, bukan Amazon, menyamar sebagai crawler AI

    • IP residensial yang berputar dan string user-agent yang berubah-ubah terlihat mencurigakan
  • Ada yang mengalami lonjakan penggunaan CPU di server pribadi akibat crawler AI

    • robots.txt dan daftar blokir berbasis user-agent mengurangi masalah, tetapi belum jelas apakah ini akan bertahan
  • Ada pendapat bahwa masalah bisa diatasi bukan dengan memblokir crawler AI, melainkan dengan menyajikan konten yang merugikan mereka

    • Jika Amazon menyadarinya, mereka mungkin akan mengeluarkan biaya untuk menyelesaikan masalah itu
  • Ada dugaan ini bisa jadi serangan DDoS yang menyamar sebagai Amazon

    • Permintaan yang datang dari IP residensial terasa mencurigakan
  • Situs Pinboard juga mengalami lonjakan trafik akibat crawler AI hingga situsnya tumbang

    • Karena tidak bisa memblokir berdasarkan rentang IP, mereka harus memakai CAPTCHA
  • Ada harapan Amazon memberi kredit AWS untuk mengompensasi biaya trafik berlebih

    • Diharapkan ini bisa diimbangi dengan pendapatan iklan
  • Sebelum memblokir lewat konfigurasi Nginx, Bytespider dan Amazonbot menyumbang 80% dari seluruh trafik

    • ClaudeBot membuat trafik ke Redmine melampaui total 5 tahun hanya dalam sebulan