Kisah mengurangi jumlah notifikasi sebesar 95,7% untuk mengatasi kelelahan akibat notifikasi
(velog.io)Latar belakang masalah: Kanal notifikasi kritis dan peringatan (Warning) dipisahkan, serta panggilan telepon diperkenalkan untuk notifikasi kritis, tetapi lonjakan lebih dari 10 ribu notifikasi peringatan per bulan menyebabkan notifikasi diabaikan dan meningkatkan kelelahan on-call.
Insight utama: Notifikasi yang berlebihan berubah menjadi sekadar health checker messenger dan menghambat visibilitas sistem. Sebagai metrik utama untuk mengurangi notifikasi, diusulkan pengukuran 'tingkat respons notifikasi' menggunakan emoji Slack (👀, ✅).
Proses penyelesaian:
Menyesuaikan dan menghapus notifikasi yang tidak lagi sesuai antara niat konfigurasi awal dan lingkungan saat ini (misalnya, ketidaksesuaian ambang penambahan volume EBS).
Notifikasi yang tidak bermakna dan niat pembuat sebelumnya tidak dapat diketahui dihapus secara tegas.
Capaian tambahan: Setelah membersihkan noise notifikasi, ditemukan bahwa penyebab tingginya iowait pada server tertentu adalah ZFS recordsize yang ditetapkan terlalu besar dibanding beban kerja aktual, lalu dinormalkan.
Hasil: Notifikasi peringatan berkurang 95,7% (10.553 per bulan → 453). Penerimaan panggilan telepon kritis pada larut malam/hari libur turun lebih dari 70%. Masalah kurang tidur saat on-call teratasi, dan ketersediaan serta visibilitas sistem yang nyata meningkat.
3 komentar
Log, metrik, dan alarm perlu memiliki praktik penyesuaian secara berkala.
Sepertinya saya pernah melihat nama panggilan ini, ternyata Anda adalah orang yang dulu menulis posting lucu tentang output cron. Tulisan kali ini juga saya baca dengan senang hati :D
Terima kasih, senang mendengar Anda membacanya dengan antusias.