ICT中級講座 F/U NO.3

メディカルICTリーダー養成講座【中級】フォローアップ
≪サーバー保守学≫
医療現場のサーバーやシステム保守運用業務に役立つ情報を定期的に配信しています。

サーバ保守学(3)

(執筆者)亀田医療情報株式会社 塚田智 


みなさん、こんにちは、サーバー保守学第3回です。8月の夏休みも明けて通常勤務に戻ろうか、でもまだ夏休みを取ってる人もいるからぼちぼちいくか、と迷う中途半端な時期になりました。病院は24時間稼働とは言っても、この時期は外来を中心に患者さんが少なくなり、全体に落ち着いた感じがしていることと思います。病院全体の業務量が少なければシステム障害も減るものだと期待するのですが、なぜか反対に、こんな時に限って「どうして?」という障害が発生することもあります。

今回は、そんなシステム障害の中でも、夏から秋の台風や豪雨や落雷などの影響で発生しやすい停電にまつわる、想定外の原因で発生する障害のお話をしていきます。

  

その停電対策、万全ですか?


1.サーバールームのエアコンが止まっていた

落雷の影響で約1時間の停電が発生。事前に計画したとおりにUPSや補助電源でサーバー室の機器は稼働し続け、停電が復旧し事なきを得たと思った。しかしそれも束の間、病棟から電子カルテが動かないと連絡があり、リモート接続で確認しようとしたところサーバーに接続できないという事例。

サーバールームを確認しに行くと、すぐに異常な暑さに気付きました。サーバールームのエアコンが止まっており、サーバーが熱暴走しないように自動的に停止していたのです。

サーバー本体や周辺機器には停電対策したものの、サーバールームのエアコンは対策されておらず、一旦電源が落ちたエアコンの復旧には電源再投入が必要だったのです。エアコンなど普段は操作しない機器も見落とさずに停電対策が必要です。エアコンに限らず、特に電源の再投入が必要な機器は特に注意しましょう。


2.UPSのバッテリー交換に手間取ってしまった

3年前にサーバー更新に合わせてUPSも更新していた。しかし、数ヶ月前からUPSのバッテリーに警告表示が出るようになった。故障かと思ってメーカーに連絡したところ、UPSのバッテリーは消耗品で3年に1回程度は交換が必要といわれた。これが意外に高価だった。バッテリー交換のための稟議書の作成から手続きを始めたものの、交換まではまだまだ時間がかると心配していたところに停電が発生。UPSでサーバーに電源供給できていたが、心配したとおり5分程度で電源供給できなくなり、サーバーが停止してしまったという事例。

一般的にUPSのバッテリーは消耗品で定期的な交換が必要なものです。ベンダーの見積書や契約書にはとても小さく書いてあり、他の記載にまぎれて認識していないこともしばしばあります。定期的に交換が必要なものは、購入時にベンダーにも確認して価格交渉のうえ計画的に予算化しておきましょう。


3.ネットワークのハブに電源供給できなかった

ネットワークが停止すると影響範囲が広いため、停電時でも最低限の業務が行えるように設計時に考慮して敷設しておいた。実際に停電が発生した際、ほとんどは期待通りに運用できたが、ネットワークの末端にあるハブの一部に電源供給できず、そのハブに接続するクライアントが使えなかったという事例。

調査したところ、一部のハブはネットワーク全体を敷設した後に追加されたもので、追加時の要件に停電対策が含まれていなかったのが分かりました。

ネットワークは情報機器よりも設備に近く、追加変更の管理が難しくなるものです。工事業者の対応を院内の設備担当部署に任せきりにするのではなく、システム管理者から直接に明確な要件を伝えられるように、日頃から工事業者とも面識を持っておきましょう。また、最近のハブはPoEでLANケーブルから電源供給できるものもあるなど、障害対策も変化しています。常に最新の技術動向も業者から仕入れておきましょう。

停電ではありませんが、ハブが机上に露出しており、掃除のときに電源を抜いてしまったという事例もありました。このハブは電源復旧後にリセット操作が必要なもので、現場では復旧できませんでした。管理が必要な重要機器とその電源は、エンドユーザーの手が届かないところに配置しておきましょう。


4.根本を理解し、原因に1つ1つ対応して運用を磨く

停電にかぎらず、障害がどのような原因で発生するかは限定できず、すべてを想定した完璧な障害対策を作ることは不可能でしょう。特に停電対策は計画的に停電状態を作ることができず、その対策の検証が難しいものです。ですから、実際に発生したときになるべく早く復旧すること、実際に発生した障害の経験を活かして次の対策を常に磨き込んでいくこと、が重要なポイントになります。

障害からなるべく早く復旧するためには、システムの構成や動作の仕組みの根本を理解しておくことが役に立ちます。根本を理解していれば、想定外の事象でもある程度は原因を推定することができます。障害から復旧したらそれで終わりではなく、その都度対策マニュアルを見直して不十分なところは追記しておきましょう。だれにでも読めるように文書化することで自分以外の人でも障害に対応できるようにしておけば、自分自身が安心して夏休みを過ごせるようになるでしょう。

(公開日 : 2019年09月01日)