ネットワーク機器障害時の迅速な修理・復旧の実現
現場で長年システム運用に関わっていると、ネットワーク機器の劣化による障害に見舞われることがたまにあります。そんなとき、日中直ぐに活性交換することが正解とは限らず、先ずは止血策を講じること、エラーログやメモリダンプ等から調査できる体制を調えて置き原因究明を急ぐこと、冗長化されているとしたら片系で何とか業務を終えて、業務終了後に作業するなどの配慮は当たり前のように検討されていると思います。
しかしネットワーク機器の修理・復旧を要するかどうか、そもそも迷うケースがあります。原因がサーバ側にあるのか、ハードかソフトウェアか、被疑箇所がどこにあるか、どんなに手順やエラーの過去実積を積み重ねても死活監視のタイミングの問題等もあり不明なことがよくあるわけです。判断に困る場合は私は予防交換をするように判断していますが、特にネットワークについては保守的に考えておいて間違いはないと思います。
それとともに是非整備しておきたいのは、いざと言うときのコンティンジェンシープランです。機器の復旧までどう一時対応するか、人手でどうサポートするか、ユーザーとしっかり整理しておくと、しばしば広範囲に渡る影響も、お客さまへの影響を局所化することができます。何よりも、想定外のことが起きた場合も冷静に対処すること、が鉄則であると自分に常日頃言い聞かせています。