10 poin oleh xguru 2020-07-08 | Belum ada komentar. | Bagikan ke WhatsApp

Penjelasan tentang insiden saat Slack untuk pertama kalinya mengalami down total yang cukup lama

  1. Setelah deployment perubahan konfigurasi DB, ditemukan bug performa yang meningkatkan beban DB, sehingga rollback dilakukan dalam beberapa menit

  2. Meski begitu, akibat isu ini autoscaling web app aktif, sehingga jumlah instance meningkat melebihi hard limit

  3. Akibatnya, muncul bug pada bagian pembaruan daftar host di load balancer sehingga instance-instance baru tidak dapat didaftarkan

→ HAProxy + Consul

  1. Setelah 8 jam, instance yang tersisa di daftar host hanyalah yang paling tua, dan ketika scale-down terjadi, instance-instance lama itu dimatikan

  2. Instance baru seharusnya mengambil alih, tetapi tidak ada instance baru di daftar host load balancer.

Belum ada komentar.

Belum ada komentar.