- Indikator daya tahan EBS gp3: Menurut dokumentasi resmi AWS, annual failure rate (AFR) adalah 0.1% ~ 0.2%. Daya tahan berdasarkan satu disk mencapai 99.9% sehingga sangat tinggi, tetapi seiring skala infrastruktur membesar, risiko probabilistik akan terakumulasi.
- Peluang terjadinya kegagalan berdasarkan skala:
- Saat mengoperasikan 1,000 disk, peluang tidak terjadi gangguan sama sekali dalam 1 tahun adalah sekitar 36.8% ($0.999^{1000}$).
- Artinya, secara statistik ada sekitar 63.2% peluang mengalami kegagalan setidaknya pada 1 disk, dan ini adalah tingkat risiko yang harus diperlakukan sebagai konstanta saat mendesain sistem.
- Perubahan tingkat kelangsungan hidup berdasarkan struktur penyimpanan:
- Struktur terdistribusi (Sharding/RAID 0): Daya tahan seluruh sistem ditentukan oleh hasil kali daya tahan tiap elemen ($R^n$). Semakin banyak jumlah disk, semakin turun peluang sistem bertahan secara eksponensial.
- Struktur replikasi (Mirroring/RAID 1): Dengan menurunkan peluang kegagalan per shard menjadi kuadratnya ($Q^2$), daya tahan seluruh sistem dapat meningkat drastis meskipun menggunakan hardware yang sama.
- Pemisahan strategi pengelolaan:
- Redundancy (RAID, dll.): Strategi untuk menjaga availability dan daya tahan layanan dengan menghadapi kegagalan mekanis pada hardware fisik.
- Backup (snapshot S3, dll.): Satu-satunya cara untuk memulihkan 'kerusakan logis data' akibat kesalahan operator, bug software, ransomware, dan sebagainya. Keduanya tidak bisa saling menggantikan.
- Kesimpulan: Memang benar layanan cloud terkelola menawarkan stabilitas tinggi, tetapi daya tahan akhir suatu sistem ditentukan bukan oleh spesifikasi tiap komponen, melainkan oleh kemampuan engineer dalam merancang arsitektur.
1 komentar
Tulisannya sangat bagus. ^^
Ini kan memang area terakhir yang tidak boleh dihemat, haha