- Selama 1,5 tahun terakhir, Slack beralih dari struktur tunggal ke struktur berbasis sel (Cellular Architecture) untuk meningkatkan redundansi dan membatasi dampak kegagalan situs
- Perubahan ini didorong oleh kebutuhan untuk meningkatkan ketahanan layanan Slack setelah insiden gangguan jaringan pada Juni 2021 yang menyebabkan penurunan layanan bagi pelanggan Slack
- Arsitektur seluler membuat setiap layanan beroperasi sebagai satu layanan virtual per Availability Zone (AZ), sehingga kegagalan di satu AZ tidak memengaruhi AZ lainnya
- Struktur ini juga mencakup kemampuan untuk mengalirkan keluar trafik (drain) dari AZ yang bermasalah, sehingga AZ tersebut dapat diisolasi secara efektif dari bagian sistem lainnya
- Mekanisme drain dirancang agar cepat, bebas kesalahan, bertahap, dan independen dari sumber daya AZ yang sedang dikosongkan
- Transisi ke arsitektur seluler mencakup strategi yang disebut siloing, yang membuat layanan hanya menerima dan mengirim trafik di dalam AZ-nya sendiri. Ini membantu membatasi semua kegagalan dalam satu AZ saja
- Implementasi mekanisme pemindahan trafik berfokus pada sistem yang merutekan kueri pengguna ke layanan inti
- Arsitektur baru ini memanfaatkan fitur Envoy berupa weighted clusters dan penetapan bobot dinamis melalui RTDS untuk mendukung pengosongan AZ
- Transisi ini mengubah cara Slack beroperasi dan membangun layanannya, serta menyediakan alat baru yang kuat untuk pengelolaan trafik dan mitigasi kegagalan
- Melalui posting blog berikutnya, mereka akan membahas lebih dalam detail implementasi teknis serta bagaimana struktur baru ini memengaruhi operasi Slack
1 komentar
Opini Hacker News