ICT中級講座 F/U NO.24
メディカルICTリーダー養成講座【中級】フォローアップ
≪サーバー保守学≫
医療現場のサーバーやシステム保守運用業務に役立つ情報を定期的に配信しています。
サーバ保守学(23)
(執筆者)亀田医療情報株式会社 塚田智
みなさん、こんにちは、サーバー保守学第23回です。新型コロナウイルスの感染拡大により、3度目の緊急事態宣言が継続しています。東京や大阪など一部の地域では、感染者数のピークは過ぎたように思いますが、全国的にはまだ重症者数や入院者数が多く、医療提供体制は逼迫した状況です。
根本的な感染予防策として、ワクチン接種が期待されています。日本でのワクチン接種は始まったばかりですが、接種の予約方法などで問題があるようです。いまは、問題があっても逆戻りせず、接種数を増やす時期だと思います。リスクを理解しながら、運用を止めずに実効性の高い対応を考えるということは、システム管理者の業務にも通じることでしょう。
さて今回は、前回から引き続きバックアップから復元について、その失敗の原因とリスク低減の方法を考えていきましょう。
バックアップと復元の失敗(2)
1.バックアップから復元の失敗
バックアップが取得できていたのに、システムやデータが復元にできなかった、という経験は私にはありません。しかし、復元の途中で失敗し手順通りに復元できなかったことや、復元が不完全になってしまった経験があります。例えば以下のような事例です。
- データベースを手順通りに復元したが、データベースが「復元中でアクセスできない」状態のままになってしまった。
- データベースのバックアップはあったものの、3日前のバックアップであり、3日分のデータが復元できなかった。
- 古いテープのバックアップからシステムを復元しようとしたが、テープの劣化で読み込めなかった。または、テープ装置が更新されており、古いテープと互換性がなく読み込めなかった。
- サーバーのディスクが故障したので、部品を交換しようとしたが、メーカーから交換用の部品が供給終了していた。そのため、予定していたバックアップ手順がそのままでは使えなかった。
- バックアップから復元する手順を間違えて、あるいは手順が間違っており重要なファイルを消してしまった。
- バックアップ手順に従って操作したが、エラーが出て手順が止まってしまった。
- システム復元の手順では、OSをCDから再導入する手順になっていたが、OSのCDが保管されていなかった。あるいは、サーバーにCDドライブが接続されていなかった。
- バックアップの手順書を紛失した。バックアップソフトのバージョンが古くマニュアルが無かった。などの原因で、復元の操作方法が分からなかった。
- 復元は手順のとおりに進んだが、想定よりも時間がかかり、システムが復旧するまでに3日間かかり、診療業務に多大な影響があった。
このように復元の途中で失敗する理由の多くは、その手順がシステム構築時に設計したものであることに起因します。構築の時点では、うまく実行できることを確認しています。しかし、システム構築から数年後に実行すると、さまざまなシステム環境の変化により、手順通りに進まない事態が起こるものです。このような事態にも迅速に適切に対応するために、システム管理者として知識と経験を蓄積しておかなくてはなりません。
2.バックアップから復元の失敗の対策
バックアップから復元の手順に習熟し、その手順が実際に実行できるか確認するために、1年に1回程度は訓練をしておきたいです。訓練は、テスト用のシステムが必要だったり、システムを停止させる必要があったり、と阻害要因が多いものです。訓練による効果と、訓練しないことのリスク、訓練することのリスクなどを比較しながら、適切な計画を立てておきましょう。
また、バックアップから復元は手順通りに実行できないことが多いものだと認識しておく必要があります。計画していた手順が失敗しても他の手段で対応できるように、バックアップの取得と復元の仕組みを理解しておきましょう。それには、システムやデータベースに加えて、バックアップソフトの機能を理解し、運用の経験値を蓄積することが重要です。
システムの導入時期が異なり、バックアップから復元の手順がシステムにより異なる場合もあります。新規のシステムを導入する時点で、既存のシステムの運用方法も合わせて変更しておきたいものです。最近は、VMwareやHyperVなどの仮想化ソフトで仮想化されたサーバーが多いと思います。その場合は、仮想化ソフトとバックアップソフトの連携で、システムとデータのバックアップを一括して取得できます。復元の方法も統一できるので、物理サーバーを管理するより運用の負荷が軽減されると思います。
情報システムは、業務が停止しないように可用性や信頼性を確保するために、さまざまな対策が求められます。その対策のうちで、バックアップから復元することは最終手段ともいえます。何か障害があってもバックアップがあればシステムは復元できます。しかし、それはバックアップから復元できなければ、それ以外の対応はできないという意味でもあります。バックアップはシステムを維持する最後の砦なのです。最後の砦があるからこそ、日常の運用上のリスクや失敗が、ある程度は許容されているのです。このような観点で、みなさんの施設のバックアップと復元を確認してみてはいかがでしょうか。