サーバートラブル発生!社内から問い合わせが止まらない☆インフラ女子の日常 vol.6

トレンド
Linux インフラ ネットワーク
サーバートラブル発生!社内から問い合わせが止まらない☆インフラ女子の日常 vol.6

サーバートラブルの原因調査は、まるで犯人を突き止める探偵気分

こんにちは、なつよです。
皆さんは、障害対応したことありますか?
私はインフラエンジニアになって7年経ちますが、いろいろな障害を経験しました。

障害対応は基本的には以下のような流れで行っています。

  • 原因の特定
  • 初動対応
  • 障害の分析
  • 根本的な対策(再発防止策)の実施

業務に支障が出ている場合、原因の特定から初動対応までを迅速に行わなくてはいけません。

原因の特定のために、ログの調査やユーザへの聞き取り、サービスの動作確認を行います。調査結果はよく見える場所に置かれたホワイトボードにまとめていくことが多いです。

そこをたまたま通りかかった人の何気ない発言が解決の糸口になることも……。

まるで散らばる証拠から犯人を突き止める探偵の気分です。
原因がわかった時は、パズルが噛み合ったような爽快感があります。
障害時に妙にテンションが上がるのはそのせいかもしれません…。


インフラ女子の日常バックナンバー


<著者プロフィール>

なつよさん☆インフラガール

なつよさん☆インフラガール@infragirl755

ISPのサーバのお守りをしているインフラガールエンジニア。
#インフラ女子の日常 を描いてます。
Blog: http://infragirl.hatenablog.jp/