ICT中級講座 F/U NO.7
メディカルICTリーダー養成講座【中級】フォローアップ
≪サーバー保守学≫
医療現場のサーバーやシステム保守運用業務に役立つ情報を定期的に配信しています。
サーバ保守学(7)
(執筆者)亀田医療情報株式会社 塚田智
みなさん、こんにちは、サーバー保守学第7回です。最近サーバーのストレージに関連する障害の報道が連続しました。病院にとっても一般企業にとってもデータは非常に重要な資源であり、ストレージは大切なデータを保管する機構です。これに障害が発生することでシステムが停止するだけでなく、データを復旧する作業が必要になります。万一データの不整合が発生したり、データの回復ができない事態となれば、取り返しようのない致命的な障害になります。そのため、ストレージに関連する障害は社会的にも注目度が上がります。今回は、これらの報道から3つを取り上げて、ストレージの障害で気を付けるべきことを考えてみましょう。
ストレージの障害は、影響が大きく長期化しやすい。
1.サーバーのSSD障害
A社のSSDのファームウェアに欠陥があり、稼働して32,768時間(4年弱)経過するとSSDのデータが破損するということです。通常SSDは同時に稼働開始するため、1つのサーバーの複数のSSDでほぼ同時に障害が発生し、データを回復できなくなる可能性があるということです。
SSDはHDDよりも性能が良いため最近のサーバーストレージに多く使われています。特に速度向上を目指す場合はHDDを無くしてSSDのみでストレージを構築する、オールフラッシュと呼ばれる構成があります。オールフラッシュでこの障害が発生すれば甚大な被害に発展することは間違いありません。
早くファームウェアをアップデートしたいところですが、そのために事前の検証が必要だったり、システム停止が必要になったりと、考えるとなかなか実施できないのが実情です。幸い、この障害によりシステムが影響を受けたという報道は現在のところありませんが、対象のSSDのユーザーには早急な対応を求められます。
2.IaaSのストレージ障害
B社が自治体を中心に提供しているIaaSのサーバーで、共有ディスクのファームウェアに既知の障害がありました。B社はストレージの製造元と保守契約を締結しており、ファームウェアを適切に更新することになっていましたが、製造元は障害の影響は少ないと見込み、ファームウェアを更新していませんでした。何かのきっかけで、この障害が顕在化しIaaSの共有ストレージが停止したということです。
この障害により、共有ストレージが使えなくなり接続している多くのVMが停止し、Iaasを利用している自治体のシステムが停止しました。そのため、住民票の発行など日常業務に多大な影響があったようです。障害箇所を特定し共有ディスクは復旧したものの、データ復旧に手間取り2週間たっても33自治体のシステムが停止したままです。共有ストレージにあったデータのうち15%は回復できない状態にあるとのことです。自治体のシステムですので、病院のシステムと同様に市民生活に大きな影響があります。障害発生から2週間経過してもデータ回復の見込みがないことから、今後どのように復旧するのか注目したいところです。
クラウドでIaaSといえば、アマゾンのAWS、マイクロソフトのAzure、グーグルのGCPなどが一般的です。これらのIaaSでは十分な障害対策がとられるサービスがあり、一部のストレージに障害があってもデータを消失するような事態には発展しない構成もできるものです。B社のIaaSも一企業のクラウドとしては大きいですが、そこまでの障害対策はそろっていなかったと思われます。
3.破壊廃棄するべきHDD転売
こちらは障害ではなくセキュリティ事故です。サーバーのHDDがオークションサイトに出品されていました。購入して確認したところ一部のHDDからデータを読み取ることができ、そのデータから県庁のシステムのサーバーで使われていたHDDであることが確認されました。HDDは県庁から元請け業者を経由してC社に渡り、C社で破壊廃棄されるべきものでしたが、社員が無断で持ち帰り転売したということです。
この社員は数年間で1,000台以上のHDDを転売したとのことです。この事故により、C社の信頼が失われるのはもちろんのこと、C社が大手の廃棄業者であるにも関わらずこのような事故が発生したため、廃棄業者業界や、ストレージの廃棄のありかた全体に改善が求められると思います。
4.障害の影響が大きく長期化する要因
サーバーにはCPU・メモリー・マザーボード・電源などさまざまな構成要素があります。それらに障害があれば障害箇所を交換したり、ファームウェアをアップデートしたりすることで以前の状態に復旧することができます。しかしストレージに障害が発生するとストレージの機器としての復旧に加えて、データを復旧させる作業が必要になり、システムの復旧までの期間が長くなります。
さらに、データは重要な資産であり、一部のデータでも復旧できない場合の影響は計り知れません。事前にデータ復旧の計画をたて、手順を確認し、必要に応じて訓練していても、実際の障害では想定外の事態が連続することで復旧がおくれます。最悪はデータを消失する事態に発展することになり、影響範囲はさらに広がり対応は長期化します。
5.有効な対策はあるのか
オンプレミスでサーバーを設置しているのであれば、ストレージについても日常的な点検が実施されていると思います。外観や警告灯、容量やレスポンスタイム、などが管理対象でしょう。製造元との保守契約で障害情報を共有し、必要に応じてファームウェアを最新化することも重要です。
データのバックアップをとっておくことはもちろんですが、そのバックアップが使えなかったら、という状況を想定してさらなる対策を考えておく必要もあります。信頼しているものを使えないと想定すると、際限なく障害対策をすることになりますので、どこまでの事態を想定するか前提をおいて効果的で実用的な計画が必要になります。オンプレミスのデータをクラウドにバックアップしておくというのは、比較的安価で効果の高い方法だと思います。
重要なデータを保管するストレージには十分な障害対策が必要です。効果と費用を確認しながら、自分の施設に最適な対策を検討しましょう。