- Postman mengalami gangguan layanan sementara karena insiden cloud global
- Gangguan ini disebabkan oleh masalah penyedia cloud, memicu gangguan fungsional dan kejadian tidak dapat diakses secara intermiten pada banyak pengguna
- Tim insinyur melakukan pemulihan secara real-time sambil layanan mulai pulih secara bertahap
- Gangguan pada beberapa fitur pencarian dan isu cross-dependency juga terus dimonitor dan diselesaikan
- Saat ini, gangguan sudah teratasi dan layanan normal telah pulih kembali; pemantauan stabilitas tambahan sedang dilakukan
Timeline dan proses pemulihan layanan Postman
Identifikasi gangguan dan dampak (Oct 20, 05:39 ~ 05:52 PDT)
- Postman mengalami masalah fungsional karena peningkatan tingkat error
- Penyebab insiden ini adalah masalah besar pada penyedia layanan cloud
- Tim Postman bekerja sama dengan vendor cloud untuk pemulihan cepat
Pemulihan sebagian dan pemantauan layanan (Oct 20, 05:56 ~ 17:17 PDT)
- Tren pemulihan pada beberapa sistem mulai terlihat
- Beberapa layanan terus dimonitor kinerjanya sambil proses pemulihan penuh dilanjutkan
- Sebagian besar fungsi telah dipulihkan, dengan fokus pada pencegahan gangguan tambahan melalui pemantauan berkelanjutan
Pemulihan penuh dan normalisasi layanan (Oct 20, 19:00 ~ 20:51 PDT)
- Masih ada masalah intermiten di beberapa layanan, namun sebagian besar sistem sudah pulih dengan stabil
- Kesalahan cross-dependency dan masalah terkait fitur pencarian juga diselesaikan secara bertahap
- Setelah semua isu terselesaikan dan pemulihan layanan penuh selesai, dilakukan pemantauan tambahan untuk memastikan stabilitas
Ringkasan dan pelajaran
- Postman sangat bergantung pada infrastruktur cloud sehingga sangat rentan terhadap gangguan global
- Untuk alat serupa atau layanan yang bergantung pada operasi lokal, penting untuk menyoroti kebutuhan kesiapan menghadapi gangguan infrastruktur cloud di masa depan
- Saat terjadinya gangguan, pemantauan isu real-time dan komunikasi sangat penting untuk pemeliharaan dan kepercayaan pelanggan
- Dalam proses pemulihan bertahapan, respons cepat tim dan pengumuman yang transparan menjadi sangat penting
- Penegasan kembali perlunya membangun sistem pemantauan untuk memastikan seluruh layanan berjalan normal
1 komentar
Komentar Hacker News
yapi(https://github.com/jamierpond/yapi) yang bisa dipakai seperti ini: contoh file yaml (termasuk skema, url, method, path, dan cara menyatakan query parameter), dan dengan hanya menjalankanyapi, Anda juga bisa dengan mudah menemukan berkas konfigurasi memakai fzf.