社内システムが正常動作をしていても、そもそも電気通信事業者側のネットワークに障害があればどうしもないですよね。電気通信事業者側は非常に高い信頼性設計をしていると想定されますが、それでも障害や事故は起きています。
そこに文句をいうのではなく(仕事ではクレームいれますが・・・)、そこから得られる教訓を社内システムに生かせないか、調べているうちに障害や事故から振り返りの記事があったので残しておきたいと思います。
https://www.soumu.go.jp/main_content/000500043.pdf
総務省のこの勉強会で同一内容があるので、日経とあわせてメモしておきます。
概要
・事前防止、事故時、事後の3つからの教訓
(1)事故の事前防止の在り方
ー適切な設備量とバックアップ
→トラフィックに応じて設備設計とそもそもトラフィックを監視できるように
→適切な頻度でバックアップをとり、復旧手順をかためておくこと
ー冗長構成の機能確保と試験
→付帯設備の冗長を忘れずに(電源、空調など)
ー監視項目・監視方法の適切な整備
→サイレント故障に注意
ー組織外の関係者との連携
→バグ情報などの共有
(2)事故発生時の対応の在り方
ー速やかな故障検知と事故装置の特定
→切り分け手順の明確化と訓練を行う事
ー利用者への適切な情報提供
(3)事故収束後のフォローアップの在り方
ー事故報告の第三者検証
ー事故報告の活用・共有
電気通信に限らず、システム関連に広く使えそうな考えですね。
詳細は、以下の検証会議を見ていくと更に深く追えます。勉強ですねー