Safie Engineers' Blog!

Safieのエンジニアが書くブログです

サービス障害ハンドリングにおける工夫

こんにちは。セーフィーでセキュリティマネジメント業務をしている川部です。

今回はサービス障害ハンドリングについて記載したいと思います。

サービス障害とセキュリティ?と疑問に思った方もいるかもしれません。
セキュリティの基本的な考えにあるCIAの可用性の観点から、セキュリティマネジメント業務の一環としてサービス障害発生時の取りまとめを担当しています。
主な業務はエンジニアと協力し、事象の詳細確認や影響するお客様の洗い出し、対外的な対応など多義にわたります。

今回はサービス障害ハンドリングにおける工夫という観点でお話したいと思いますのでSaaS企業で障害対応される皆さんや障害対応を任された皆さんの一助になれば幸いです。

セーフィーを取り巻く環境

セーフィーでは現時点(2023年6月)で20.7万台のクラウドカメラが日々お客様の元で稼働している状況です。業界のシェア約56%であるため、広範囲な障害が発生した際は非常に多くのお客様に影響があるサービスです。
また当社の製品は様々な業界でご利用いただいており、防犯用途等で使用いただいてるお客様も少なくありません。

そのため、障害によってはお客様の目的が達成できないばかりか、お客様のビジネスにクリティカルな影響を与えてしまう可能性もあり、障害発生時の現場の緊張感は非常に高くなります。

一方で同じ商品でもBtoB向け、BtoC向けの商流があり、それぞれ障害対応時の観点も異なります。

BtoC向けであれば弊社のサポートを通して、お客様をサポートできるように社内への展開する情報を平準化しつつ、スムーズに情報展開する必要があります。

BtoB向けであれば、弊社がOEMとなり、パートナー企業様を通してサービスを提供しているため、お客様への情報展開が直販に比べ遅くなります。

そのため情報伝達のスピードが非常に重要になりますし、お客様の混乱を回避するため、パートナー企業様と発信内容を統一する必要があったりと気にすべきことはたくさんあります。

そのような背景の中、障害をハンドリングするわけですが、今回はハンドリングを行う上での大きな工夫2点をお伝えします。

スピード感をもって対応するための施策

一つ目は「スピード感をもって対応するための施策」です。

セーフィーでは障害報告が社内で上がった後、その障害の重要度を判断し、対応のスピードや対外報告の範囲を決定します。
内容によってはホームページや自社アプリ上で情報を展開する必要がありますし、影響範囲が小さければ個別に対応するなど重要度に応じてその後の工程を変えています。

この重要度判断に基づき、各部門が対応に向けて動き出します。なのでいち早く重要度を決定することがその後工程をスムーズにつなげるコツになります。

ただし、重要度を判断するには発生した障害事象を理解しながら影響範囲等を見定める必要があります。

一般的に判断と聞くと定量的な指標に基づき、判断するのだろうと思われるかと思います。もちろんそれも間違ってないです。
ただし障害はもともと想定していないもの(想定できるものは上流工程で潰されている前提ですが・・・)なので、発生事象によっては定量的な数字がスピーディーに取得できないものや定量的な指標で影響を判断できない事象等も考えられます。

そのため弊社では重要度判断基準として定量的、定性的な指標それぞれを設けて運用することでスムーズに判断できるようにしています。

サービス品質の維持管理するための施策

2つ目の工夫は障害対応が終わった後の話です。

障害発生後、暫定的に障害の封じ込めを行い、恒久対策を施し、より高い品質維持できるように工夫しています。
そのため非常にベタではありますが、障害を履歴として管理しており、遡って確認することはもちろん、発生した障害箇所により恒久的な対策やその日程感などを管理しています。

また障害の重要度に応じて対策に対しても各部門やCTOや経営層の確認を必須とする仕組みを整え、運用することで効率的かつサービス品質向上にもつながるように管理しています。

サービス障害はネガティブな事象と捉えることもできますが、サービスをより良いものにできるきっかけでもあるので、そういった意識をもってハンドリングにあたっています。

以上セーフィーにおけるサービス障害ハンドリングの工夫でした。
同じように障害対応で旗振りをしている方や障害対応について気になっていた方など何かの参考になればと思います。

© Safie Inc.