サーバ運用業務には24時間年中無休の障害アラートの対応が含まれています。
夜中に運用担当者に掛かってくる電話が一本でも無くなればどの職場でも大助かりです。
今回は障害アラート件数を減らす為にどのような取り組みをしたかを紹介します。
ステップ1 障害アラート対応メンバーにアンケートを取ってみました。
障害アラートを減らす活動を本格的に始める前に、まず成果が出せそうかアンケートを取ってみる事にしました。
アンケートでは体感的に50%は既知のエラー対応という結果が得られました。
既知のエラーが多いという事は対策すれば結構な削減効果が期待できそうです。
活動を本格的にスタートさせる決意をしました。
ステップ2 障害アラートを内容別に集計する。
私の職場では週次で全ての障害アラートの報告がされていたので直近3ヶ月分の障害アラート情報を集めました。
集めた障害アラートを1つのエクセルシートにまとめ、障害内容別にカウントし、
発生頻度の高いものから順にソートしました。
この表はパレート図と言われている物で不具合の多い物から順に対策する場合に有効です。
パレート図は棒グラフと折れ線グラフからなるのですが、ここでは作図の時間が勿体無いので表のみとしました。
出来上がった表のイメージはこちらです。
障害アラートメッセージ | 発生件数 | 累積% | 対応状況 | |||||
障害A | 20 | 20 | 既知のエラー監視除外で対応 | |||||
障害B | 15 | 35 | 開発側で対応の必要があり対応不可 | |||||
障害C | 10 | 45 | 既知のエラー監視除外で対応 | |||||
障害D | 5 | 50 | 調査中 | |||||
障害E | 5 | 55 | ディスク追加で対応 | |||||
障害F | 3 | 58 | ・・ | |||||
障害G | 2 | 60 | ・・ | |||||
・・・ | ・・ | ・・ | ||||||
障害X | 1 | 100 | ・・ |
上の表は極端な分布ですが、実際の場合でも単純に上位10件対応すれば20%程度の効果が出そうだという事がわかりました。
どの程度の効果が見込めるのかが分かるのが良いところです。
ステップ3 障害アラート削減の対策をする
ここでは、ステップ2で作成した表に基づいて、見込み削減効果と対策の手間を照らし合わせながら
順次対策していきます。
実際に対策できたのはディスク追加によるディスク容量閾値超過の対応と
既知のエラーの監視除外になります。
監視除外は除外しても良いか調査の必要がありますが、最も手間が掛からずに効果がありました。
ステップ4 削減効果の確認
全ての対策完了後に集計表を確認したところ全体の8%削減という結果になりました。
障害アラート担当者も「しょーもないアラートは無くなった」と体感できたそうです。
ステップ1の50%見込みからは大きく落ち込みましたが、実際はこんなものでしょう。
以上で紹介を終わります。