ICT中級講座 F/U NO.21
メディカルICTリーダー養成講座【中級】フォローアップ
≪サーバー保守学≫
医療現場のサーバーやシステム保守運用業務に役立つ情報を定期的に配信しています。
サーバ保守学(20)
(執筆者)亀田医療情報株式会社 塚田智
みなさん、こんにちは、サーバー保守学第20回です。新型コロナウイルスの感染拡大に伴う緊急事態宣言が継続しています。感染者は減少傾向にありますが、まだ多くの新規感染者が発生しています。医療機関に入院する患者さんも多く、医療提供体制は逼迫しています。そんな中で、医療従事者向けにワクチン接種が始まりました。これが感染対策の解決策になることを期待します。
みなさんの施設でも、ワクチン接種の準備を始めていることでしょう。数か月のうちには一般の方への接種が始まるようです。多くの患者さんに対応しながら、ワクチン接種に協力しなくてはいけないという大変な時期になります。状況はめまぐるしく変化しますが、変化に応じて柔軟に対応していきましょう。
さて、今回は、医療ではなく他業種のシステム障害の事例を取り上げ、医療情報システムに当てはめて、どんな学びがあるか考えてみましょう。事例は、2020年10月1日に発生した、東京証券取引所(東証)のシステム障害です。
障害事例から学ぼう 東京証券取引所
1.障害の経緯と注目点
障害の経緯は、日本取引所グループのWEBサイトに報告書が公表されていますので参照してください。
この障害において、以下の3点に注目してみましょう。
- (1)障害対策していた共有ディスクで障害が発生した。
- (2)この障害で東証の取引が終日停止した。
- (3)障害発生の責任を取る形で東証の社長が辞任した。
医療機関とは組織もシステムも規模が違いますが、多くの共通点もあります。それぞれで考えていきましょう。
2.ストレージの障害対策
障害の発端はストレージ内の共有ディスクのメモリーの故障です。共有ディスクは、それ自身が多重化されるなど障害対策されていました。しかし、メモリーの故障に対して不適切な設定になっており、障害が顕在化してしまいました。システムを構築する立場から考えると、この障害を防ぐのは、とても困難だと思えます。以下のような理由です。
- 共有ディスクのメモリーの故障は、人為的に発生させられないため、事前にテストすることが難しい。
- 東証では多くのシステムが連携している。その中で、中核でないシステムであるストレージの、さらに一部の装置であるため、若干信頼性が落ちることはやむを得ない。
- 共有ディスクの製造元からの情報が間違っていたことで、不適切な設定になっていた。
システムの信頼性を向上させるのは、システム構築業者やシステム管理者の責任です。しかし、すべてのシステムのすべての機能に100%の信頼性を求めるのは無理なことです。信頼性の目標値を設定して、それでも障害が発生した場合の対策を事前に計画しておくことが必要です。
3.障害の影響範囲
障害から2時間程度で共有ディスクは回復し、午前中には通常の取引ができる状態にあったようです。それでも取引が終日停止するという、過去に例のない重大な結果となりました。報告書や当時の報道から推測すると、影響範囲が広がったのは、以下のような理由です。
- システムを再開するには、日毎の処理を再実行する必要があった。
- システムを利用している証券会社のうち何社かが、日毎の処理を再実行できない状態だった。
- 対応できない会社があるのなら、公平な取引のために、取引を再開しないと判断した。
障害対応の手順は事前に決められており、手順に従って実施され、個別の判断は正しいように思います。ですが、この障害対応の手順は、システムが止まらないことを前提にしており、その場合の対応手順は不十分だったようです。
この障害の結果から、障害対策を見直すのであれば、システムはしばしば止まることがあるという前提と、取引(業務)は一部でも継続すべきだ、という方針を元にすることが正しいのだと思います。
4.経営者の責任
障害の当日には、東証の記者会見が開かれ、そこには社長も出席していました。その真摯な対応は、とても好感が持てるものでした。特に、社長自身が技術的な質問にも回答し、障害の責任はシステムを運用している東証にあると断言したことには感銘を受けました。危機管理にあたる経営者として優れた対応だったと思います。
それから2か月後に社長は辞任することになりました。辞任と同時期に公表された調査委員会の報告書には以下の記述があります。
これまで「Never Stop」をスローガンとして、信頼性を高める施策に取り組んできたが、今後は、迅速かつ適切な回復策を拡充すべくレジリエンス(障害回復力)も同様に重視して取組む。
基幹システム構築の方針は経営者が決めるもので、その方針が間違っていたのなら責任をとらなければならないのだと理解できます。
この事例は、他業者で規模も異なりますが、その詳細を理解しておくことは参考になります。みなさんも、もう一度この障害を振り返って、自身の医療機関に当てはめて、障害対策の方針や、障害発生時の対応手順を見直してみてはいかがでしょうか。