5 poin oleh GN⁺ 2023-10-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Artikel tentang evolusi 20 tahun Site Reliability Engineering (SRE) Google
  • Selama 20 tahun terakhir, daya komputasi Google tumbuh 1.000 kali lipat, dan jaringannya 10.000 kali lipat
  • Alat SRE berevolusi dari skrip Python menjadi ekosistem layanan terintegrasi, lalu menjadi platform terpadu yang menyediakan keandalan secara bawaan
  • Artikel ini menyoroti 11 pelajaran utama yang dipetik dari 20 tahun praktik SRE di Google
  • Pelajaran 1: Risiko tindakan mitigasi harus disesuaikan dengan tingkat keparahan gangguan
  • Pelajaran 2: Mekanisme pemulihan harus diuji sepenuhnya sebelum keadaan darurat terjadi
  • Pelajaran 3: Semua perubahan harus diterapkan secara bertahap untuk mencegah dampak berskala besar
  • Pelajaran 4: Setiap dependensi layanan harus memiliki "tombol merah besar" untuk mengembalikan kondisi yang tidak diinginkan
  • Pelajaran 5: Pengujian unit saja tidak cukup; pengujian integrasi juga diperlukan
  • Pelajaran 6: Selama gangguan, banyak saluran komunikasi termasuk cadangan sangat penting
  • Pelajaran 7: Layanan harus dapat menurunkan performa secara sengaja dan anggun dalam situasi luar biasa
  • Pelajaran 8: Ketahanan terhadap bencana dan pengujian pemulihan harus menjadi bagian dari strategi keberlangsungan bisnis
  • Pelajaran 9: Tindakan mitigasi harus diotomatisasi untuk mengurangi mean time to recovery (MTTR)
  • Pelajaran 10: Rollout yang sering disertai pengujian yang tepat dapat mengurangi kemungkinan rollout bermasalah
  • Pelajaran 11: Satu versi hardware global adalah single point of failure, dan mempertahankan infrastruktur yang beragam dapat mencegah gangguan total
  • Pelajaran-pelajaran ini didasarkan pada insiden nyata yang dialami dan dipelajari Google selama bertahun-tahun

Belum ada komentar.

Belum ada komentar.