Laporan Gangguan Cloudflare pada 2 Juli 2019 [Terjemahan]
(ryanking13.github.io)Ini adalah rangkuman dari CTO Cloudflare tentang gambaran insiden dan penanganannya, sebuah tulisan yang menunjukkan bagaimana masalah dapat terjadi di organisasi berskala besar dan bagaimana cara menanganinya
5 komentar
Appendix pada artikel asli juga menarik. Ada penjelasan rinci tentang mengapa pola bermasalah
.*.*=.*bisa menghabiskan CPU, dan selain memperbaiki regular expression, tampaknya mempertimbangkan penggantian engine sebagai alternatif juga cukup bermakna.Laporan gangguannya luar biasa. Bukan hanya penjelasan rinci tentang bagaimana mereka menanganinya yang mengesankan, tetapi juga banyak hal yang bisa dipelajari dari cara mereka tidak melihatnya sekadar sebagai kesalahan satu engineer, melainkan mencari penyebab yang saling terkait lalu menyelesaikannya satu per satu. Meski terjadi gangguan, rasanya justru kepercayaan terhadap perusahaan akan semakin kuat.
Saya sangat bisa merasakannya. Saya juga terkesan karena mereka menyoroti penyebab yang kompleks. Rasanya ada banyak hal yang bisa dipelajari dari cara mereka tidak melihatnya semata-mata sebagai kesalahan satu engineer.
Benar juga. Mungkin mereka bahkan punya eksekutif khusus yang menangani laporan insiden? Sungguh mengesankan bahwa mereka bisa menemukan dan menganalisis penyebabnya sedetail itu, tetapi laporannya juga ditulis sangat baik sampai-sampai terasa seperti, apakah memang perlu menulis sedetail itu.
John Graham-Cumming, CTO Cloudflare yang menulis artikel itu, pada dasarnya juga seorang blogger terkenal. https://blog.jgc.org/