インシデント対応訓練をやってみた

はじめに

みなさん、こんにちは。 プロモーション・デザインユニット(以下プロモ・デザインU)の竹内・牧山・安田です。

今回はプロモ・デザインUの目標の一つである「プロモーション業務でのNOインシデント対策」をデザインサプリ(社内勉強会)で報告してきました。

プロモ・デザインUの活動について詳しく知りたい方は👉過去の記事をご覧ください!

プロモ・デザインUのOKR(目標)の記事はこちら
tech-blog.optim.co.jp

社内デザイン勉強会「デザインサプリ💊」の記事はこちら tech-blog.optim.co.jp

プロモーション業務でのNOインシデント対策

前述した通り、プロモ・デザインUではWebプロモーションにおいて、人的ミスによるインシデントの撲滅と、インシデント発生時の早期復旧を目的としてさまざまな取り組みを行ってきました。

インシデントには、マニュアルと教育の徹底で回避できる人的ミスが原因のものと、サーバーや導入しているサービス起因による発生予測が難しいものがあります。
前者のようなインシデントを撲滅し、後者のようなインシデント発生時にはできるだけ早期に復旧するという二つの観点でインシデント対策を行いました。

ヒヤリハット収集

以前からWebプロモーションに関わる作業はできる限りマニュアル化し、「ハンドブック」としてまとめてノウハウの共有をしていました。
過去に起きてしまったインシデントから、実際にプロモーションチームでは下記を一例とする対策を実施しています。

• 特別な理由がない限りは翌日が休業日となる日のリリースは避ける。
• お問い合わせフォームの更新をする際には、事前に用意したチェックリストを用いてダブルチェックを行う。
• リリースは直接FTPツールを用いての更新はせず、gitやDockerを用いた自動リリースシステムを利用する。
• CSSはファイルのタイムスタンプからクエリパラメータを追加し、更新時にキャッシュが残らないようにする。

今期はさらにインシデントにつながりかねないミス(ヒヤリハット)が起きた時に、ミスの内容と対策を報告してもらうためのフォームを作成し、収集するようにしました。

ミスは誰でもしてしまうものですが、それを隠したり流したりしては無駄になってしまいます。
あえて公開することでお互いに注意喚起してミスを減らすことを目的に収集をしています。
なお、報告するための心理的障壁ができるだけ低くなるよう、ミスの報告は絶対に個人のマイナス評価に繋げないことを最初に宣言しています。

収集したヒヤリハットは月に1回まとめてPDF化してメンバー内に周知し、最もインシデントに近いヒヤリハットにはMVH(Most Valuable ヒヤリハット)として取り上げ、注意を呼びかけています。

一例を紹介すると、以下のようなヒヤリハットが寄せられています。

• Webサイト更新の社内通知メールのURLがテストサイトを参照していた
• PNGの書き出しで本来透過ファイルであるべき画像に白背景がついていた

インシデント発生後の対応フロー

人的ミス以外のインシデントの原因としては、CMSやサーバ、メール配信システムなど外部サービスの利用で、予期せぬ挙動や告知されなかった仕様変更などが挙げられます。

そういった場合にもできる限り迅速に対応ができるよう、インシデント発生後の報告、周知のフローをまとめてマニュアル化を行いました。

マニュアルは、なるべくやるべきことをブレイクダウンして、どのタイミングで誰になんの情報を渡すのかを明文化することを心がけました。
社内外へ障害が発生した旨の通知をする際、事前に文案を作成して周知するまでの時間を短縮したり、影響度の指標を記載して判断に困らないようにしました。

インシデント対応訓練の実施

実際にヒヤリハット収集の結果から、およそ4割がWebサイトやメールによるものでした。
さらに、発生頻度と影響度でスコアリングしたところ、重大インシデントにつながるもののうち半数は事業部間の連携不備によって起きていることが判明しました。

そこで、インシデント対応訓練のシナリオは、複数の事業部が連携する業務に関係するものとして「メルマガ配信」をテーマにすることにしました。

対応訓練ではプロモ・デザインUだけではなく、各事業部で製品プロモーションを担当しているスタッフにも声をかけて参加いただきました。

訓練当日の流れ

訓練内容

  1. インシデントの検知
  2. エスカレーション
  3. 対応の判断
  4. 一次対応(正しい情報に修正する)
  5. 二次対応(影響のあったユーザーへの対応)
  6. 事後処理(障害報告書の作成)

インシデント発生時に全スタッフが出社しているとは限らずリモートスタッフがいることを加味したり、今回はログを残す意味でもチャットツールを用いてフローを確認しました。

インシデントシナリオ

オプティムの製品 OPTiM Anything(←実在しない製品)の企画担当より、既存顧客リスト1000名に対し、Webダウンロードができる製品情報の紹介資料の送付を担当者に依頼。
メールを2/28の10時に配信し、200名の開封、150名の資料ダウンロードを確認
社内のスタッフがたまたまダウンロード資料を2/28の12時頃に確認したところ、半年後にリリース予定だが、まだ未発表で調整中のA社との機能連携がすでに搭載されているような内容になっていた。

訓練の振り返り

時間の都合で対応訓練の実践は一次対応までとしました。
二次対応以降は資料を見ながら対応フローを確認するのみとなりました。
チャットベースでの訓練でしたが「上長役」で参加された方がアドリブで”エスカレーションのチャットに気づかない上長”を演じてくださり、「上長がつかまらない場合はチャットだけでなく直接声をかけたり電話で連絡しないといけないね。」という確認ができました。緊張感のある良い訓練になりました。

参加者に実施したセキュリティテストとアンケートでは「貴重な体験機会を準備してくださり、ありがとうございました!とても勉強になりました!」という声もいただきました。訓練の内容が、同様のインシデントが発生した際に活かせそうかという質問に対しても5点満点中平均4.64点となりました。

訓練の目的である、メール・Webに関連したインシデント発生時の対応手順を部署を横断して確認し、関係部署が早期に対応できるようになることが達成できたと感じます。

オブザーバーとして参加したISMS委員からは「今回の対応訓練を参考に、ISMS委員で準備しているもっと全社的なインシデント対応フローでもやってみたい。」という声もいただき、訓練としてはまずまずの成果を得られました。

まとめ

インシデントは当然、起こしたくて起こす人はいないと思います。
ヒヤリハット収集から注意喚起を促し、もしインシデントが起きてしまった場合には対応フローと対応訓練から早期復旧できるように努めたいと思います。

おわり

オプティムでは、エンジニアだけではなくプロモ・デザインUで一緒に働いてくださるメンバーも探しています。
プロモ・デザインUでは、UI/UXデザインやブランディング、Web制作、マーケティングなどオプティム製品にまつわる様々なデザインのお仕事をしています。
UI/UX、ブランディング、Webプロモーションなどに興味がある方、ぜひご応募お待ちしています。

www.optim.co.jp