Laporan Gangguan Slack 2020-5-12

(slack.engineering)

10 poin oleh xguru 2020-07-08 | Belum ada komentar. | Bagikan ke WhatsApp

Penjelasan tentang insiden saat Slack untuk pertama kalinya mengalami down total yang cukup lama

Setelah deployment perubahan konfigurasi DB, ditemukan bug performa yang meningkatkan beban DB, sehingga rollback dilakukan dalam beberapa menit
Meski begitu, akibat isu ini autoscaling web app aktif, sehingga jumlah instance meningkat melebihi hard limit
Akibatnya, muncul bug pada bagian pembaruan daftar host di load balancer sehingga instance-instance baru tidak dapat didaftarkan

→ HAProxy + Consul

Setelah 8 jam, instance yang tersisa di daftar host hanyalah yang paling tua, dan ketika scale-down terjadi, instance-instance lama itu dimatikan
Instance baru seharusnya mengambil alih, tetapi tidak ada instance baru di daftar host load balancer.

Belum ada komentar.

Belum ada komentar.