Server Git saya menjadi tidak stabil karena crawler AI Amazon

(xeiaso.net)

1 poin oleh GN⁺ 2025-01-19 | 1 komentar | Bagikan ke WhatsApp

Server Git saya menjadi tidak stabil karena crawler AI Amazon
Blog dukungan: Jika Anda menikmati blog ini, Anda dapat mendukung Xe di Patreon
Berlangganan Patreon: Iklan EthicalAds
Perbaikan (2025-01-18 23:50 UTC): Saya menulis sebuah proxy yang melakukan pemeriksaan bukti kerja sebelum mengizinkan permintaan ke server Gitea. Namanya Anubis, dan saya berencana menulis posting blog tentangnya segera. Saat ini dapat dilihat di https://git.xeserv.us/. Masih agak kasar, tetapi sudah bekerja dengan cukup baik
Perbaikan (2025-01-18 19:00 UTC): Saya menyerah. Saya memindahkan server Gitea ke balik VPN. Saya sedang mengerjakan reverse proxy bukti kerja untuk melindungi server dari bot. Akan saya hidupkan lagi segera
Perbaikan (2025-01-17 17:50 UTC): Saya menambahkan cuplikan berikut ke konfigurasi ingress:
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
Bot masih menyerang dari IP lain. Sekitar 10% permintaan tidak memiliki user-agent amazonbot. Saya tidak tahu harus melakukan apa selanjutnya. Saya benci masa depan
Permintaan bantuan: Saya meminta seseorang yang menjalankan AmazonBot untuk menambahkan git.xeserv.us ke daftar domain yang diblokir. Jika Anda mengenal seseorang di Amazon, saya harap Anda dapat meneruskan pesan ini. Jika mereka ingin merayapi server Git saya, saya berharap mereka menghubungi saya agar dapat membayar biaya yang sebanding dengan upgrade perangkat keras. Saya tidak ingin menutup server Gitea dari publik, tetapi jika perlu saya akan melakukannya. Memblokir bot crawler AI itu sia-sia. Bot berbohong, mengganti user-agent, dan menggunakan alamat IP residensial sebagai proxy. Saya hanya ingin permintaannya berhenti
Saya sudah mengatur file robots.txt untuk memblokir semua bot:
```
User-agent: *
Disallow: /
```
Saya tidak tahu lagi apa yang harus dilakukan

1 komentar

GN⁺ 2025-01-19

Komentar Hacker News

Bisa mencoba menyelesaikan masalah dengan meminta pengacara menulis surat "cease and desist" yang tegas lalu mengirimkannya ke Amazon
- Jika Amazon tidak berhenti, perhatian bisa ditarik lewat pengaduan pidana
Ada usulan untuk memblokir crawler AI dengan menambahkan tautan yang tidak akan dikunjungi manusia di situs web lalu melarangnya di robots.txt
- Jika suatu alamat IP mengunjungi tautan tersebut, maka diblokir selama 24 jam
Bot AI dan SEO hampir tidak pernah mematuhi robots.txt dan sulit diblokir
- Jika crawler AI ingin mengakses, mereka harus mengikuti aturan atau membayar biaya
Ada kemungkinan pihak lain, bukan Amazon, menyamar sebagai crawler AI
- IP residensial yang berputar dan string user-agent yang berubah-ubah terlihat mencurigakan
Ada yang mengalami lonjakan penggunaan CPU di server pribadi akibat crawler AI
- robots.txt dan daftar blokir berbasis user-agent mengurangi masalah, tetapi belum jelas apakah ini akan bertahan
Ada pendapat bahwa masalah bisa diatasi bukan dengan memblokir crawler AI, melainkan dengan menyajikan konten yang merugikan mereka
- Jika Amazon menyadarinya, mereka mungkin akan mengeluarkan biaya untuk menyelesaikan masalah itu
Ada dugaan ini bisa jadi serangan DDoS yang menyamar sebagai Amazon
- Permintaan yang datang dari IP residensial terasa mencurigakan
Situs Pinboard juga mengalami lonjakan trafik akibat crawler AI hingga situsnya tumbang
- Karena tidak bisa memblokir berdasarkan rentang IP, mereka harus memakai CAPTCHA
Ada harapan Amazon memberi kredit AWS untuk mengompensasi biaya trafik berlebih
- Diharapkan ini bisa diimbangi dengan pendapatan iklan
Sebelum memblokir lewat konfigurasi Nginx, Bytespider dan Amazonbot menyumbang 80% dari seluruh trafik
- ClaudeBot membuat trafik ke Redmine melampaui total 5 tahun hanya dalam sebulan

Server Git saya menjadi tidak stabil karena crawler AI Amazon

Server Git saya menjadi tidak stabil karena crawler AI Amazon

Bacaan terkait

1 komentar

Komentar Hacker News