AWS東京リージョンで約1時間続いた障害、原因は主電源と二次電源が遮断されたことが原因。AWSが明らかに
一昨日(2025年4月15日)、Amazon Web Services(AWS)の東京リージョン(AP-NORTHEAST-1リージョン)のアベイラビリティゾーン(apne1-az4)において日本時間午後4時40分頃から約1時間続いた障害は、主電源と二次電源が遮断されたことが原因だとAWSが明らかにしました。
4つのアベイラビリティゾーンの1つで障害発生
AWS東京リージョンは、「アベイラビリティゾーン」と呼ばれる独立した4つのデータセンターを備えています。
各アベイラビリティゾーンはそれぞれが独自の電源とインターネットへの接続を備えつつ、高速なネットワークで相互に接続されています。これにより、万が一あるアベイラビリティゾーンが自然災害や障害などで使用不能になったとしても、その影響を他のアベイラビリティゾーンが受けないように設計されています。
今回の障害は、この4つのアベイラビリティゾーンのうちの1つ(apne1-az4)で障害が発生しました。
日本時間午後4時40分、障害発生
今回の障害はAmazon EC2を中心に複数のサービスに影響しましたが、この記事ではAmazon EC2の障害報告を基に障害の経緯について振り返ります。
AWSが稼働情報として公開している「AWS Health Dashboard」によると、今回の障害が発生したのは日本時間で4月15日午後4時40分から。
AP-NORTHEAST-1リージョンの単一のアベイラビリティーゾーン (apne1-az4) において、一部のAmazon EC2インスタンスへの接続の問題が発生しました。また、EC2インスタンスおよび障害の影響を受けたEC2インスタンスを使用する他のAWS APIにおいて、エラー率やレイテンシーの増加の影響を受けることとなりました。
障害発生後、AWSのエンジニアが数分以内に対応を開始し、障害の緩和策について調査を開始しました。
午後5時43分に収束
AWSがダッシュボードを通じて、障害が発生したことと、調査を開始したことを明らかにしたのが午後5時15分。
午後5時21分にはダッシュボードを通じて「回復の兆しが見られ始めていますが、AWSは完全な回復に向けて引き続き注視し、取り組んでいます。」と報告。
午後5時51分、障害が5時43分に収束したこと、原因として「影響を受けた EC2 インスタンスへの主電源と二次電源が遮断されたことが原因でした。」ということを明らかにしました。
記事執筆時点(2025年4月16日午後9時半)では、なぜ冗長構成となっている主電源と二次電源の両方が遮断されてしまったのか、また、今後こうした障害が発生しないようにどのような対策を行うのか、などについての情報は公開されていません。
過去の東京リージョンの障害
AWS東京リージョンでは2021年、2019年と大きな障害が発生していました。
- 9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開
- AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず
AWSのようなクラウドでのシステム構築において耐障害性の高いシステムを構築するには、特定のアベイラビリティゾーンでの障害が発生することを前提に、複数のアベイラビリティゾーンやリージョンを活用したシステム構築が求められるでしょう。
あわせて読みたい
CVE Foundationが発足。脆弱性に固有の番号を付与するCVEプログラムの長期的な安定性、独立性を確保
≪前の記事
Cloudflare Workers、フルスタックアプリの構築とホスティングが可能に。新たにNext.jsやAngularなどに対応、MySQLへの接続も