- Artikel tentang evolusi 20 tahun Site Reliability Engineering (SRE) Google
- Selama 20 tahun terakhir, daya komputasi Google tumbuh 1.000 kali lipat, dan jaringannya 10.000 kali lipat
- Alat SRE berevolusi dari skrip Python menjadi ekosistem layanan terintegrasi, lalu menjadi platform terpadu yang menyediakan keandalan secara bawaan
- Artikel ini menyoroti 11 pelajaran utama yang dipetik dari 20 tahun praktik SRE di Google
- Pelajaran 1: Risiko tindakan mitigasi harus disesuaikan dengan tingkat keparahan gangguan
- Pelajaran 2: Mekanisme pemulihan harus diuji sepenuhnya sebelum keadaan darurat terjadi
- Pelajaran 3: Semua perubahan harus diterapkan secara bertahap untuk mencegah dampak berskala besar
- Pelajaran 4: Setiap dependensi layanan harus memiliki "tombol merah besar" untuk mengembalikan kondisi yang tidak diinginkan
- Pelajaran 5: Pengujian unit saja tidak cukup; pengujian integrasi juga diperlukan
- Pelajaran 6: Selama gangguan, banyak saluran komunikasi termasuk cadangan sangat penting
- Pelajaran 7: Layanan harus dapat menurunkan performa secara sengaja dan anggun dalam situasi luar biasa
- Pelajaran 8: Ketahanan terhadap bencana dan pengujian pemulihan harus menjadi bagian dari strategi keberlangsungan bisnis
- Pelajaran 9: Tindakan mitigasi harus diotomatisasi untuk mengurangi mean time to recovery (MTTR)
- Pelajaran 10: Rollout yang sering disertai pengujian yang tepat dapat mengurangi kemungkinan rollout bermasalah
- Pelajaran 11: Satu versi hardware global adalah single point of failure, dan mempertahankan infrastruktur yang beragam dapat mencegah gangguan total
- Pelajaran-pelajaran ini didasarkan pada insiden nyata yang dialami dan dipelajari Google selama bertahun-tahun
Belum ada komentar.