Azureの東日本リージョンが7時間にわたってダウン。原因はデータセンターの冷房が失われ自動シャットダウン。日本のリージョンはこの1カ月で三回目の障害

2017年4月3日

3月31日金曜日の午後11時頃から最大約7時間にわたって、Microsoft Azureの東日本リージョンの仮想マシンやストレージなどを含むほとんどのサービスがダウンするという大規模な障害が発生しました。

Azure の状態の履歴」によると、マイクロソフトは原因をデータセンターの冷却が正常にできなくなったためだと次のように説明しています。

Engineers have identified the underlying root cause as loss of cooling causing certain Storage and Compute scale units to perform an automated shut down to preserve data integrity & resilience. This affected a number of services with dependencies on these scale units.

技術者が特定した原因は、冷房が失われたため一定のストレージとコンピュートのスケールユニットがデータの整合性および復帰可能状態を維持するために自動的にシャットダウンされたことである。これによってスケールユニットに依存する多数のサービスが影響を受けた。

4/3 15:50追記:マイクロソフトが日本語でもう少し詳しい報告を公開しました。
- 3 月 31 日夜間から発生した東日本データセンターの障害についての原因調査報告書 (RCA) の抄訳 – Japan Azure Technical Support Engineers' Blog

3月に入って日本のリージョンは3度目の大規模障害

Microsoft Azureでは、この障害の3日前の3月28日にも西日本リージョンで3時間にわたって仮想マシンなどの障害が発生しており、また3月8日には東日本リージョンで2時間近くにわたってストレージの障害が発生しています。つまり日本の2つのリージョンにおいて、この1カ月で大きな障害が3回発生したことになります。

関連記事:過去に起きた障害

Microsoft Azureの北欧州データセンターで、定期メンテナンス時に予期せぬ消火剤放出が発生。空調停止を引き起こし、温度上昇でサーバ群が停止するという障害を引き起こしました。

Microsoft AzureはDNSの障害をきっかけにAzure SQL Database、Azure Backup、Visual Studio Team Searvice、Redis Cacheなどをはじめとする多数のサービスに障害が発生、可用性が低下するなどの現象を引き起こしました。

Microsoft Azureは10時間を超える長時間、ストレージや仮想マシンなど多くのサービスでサービスの中断や性能低下などの障害を引き起こしていました。

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本