Laporan Gangguan Slack 2020-5-12
(slack.engineering)Penjelasan tentang insiden saat Slack untuk pertama kalinya mengalami down total yang cukup lama
-
Setelah deployment perubahan konfigurasi DB, ditemukan bug performa yang meningkatkan beban DB, sehingga rollback dilakukan dalam beberapa menit
-
Meski begitu, akibat isu ini autoscaling web app aktif, sehingga jumlah instance meningkat melebihi hard limit
-
Akibatnya, muncul bug pada bagian pembaruan daftar host di load balancer sehingga instance-instance baru tidak dapat didaftarkan
→ HAProxy + Consul
-
Setelah 8 jam, instance yang tersisa di daftar host hanyalah yang paling tua, dan ketika scale-down terjadi, instance-instance lama itu dimatikan
-
Instance baru seharusnya mengambil alih, tetapi tidak ada instance baru di daftar host load balancer.
Belum ada komentar.