アマゾンのクラウドが落雷で一部停止、そのとき何が起きたか?

2009年6月16日

先週の水曜日、アマゾンのクラウドサービスAmazon EC2を運用中の米国のデータセンターに落雷があり、電力配分装置(Power Distribution Unit:PDU)が破損。一部のサービスが停止するという事故がありました

このときアマゾンの内部では何が起きてどう対応したのか? アマゾンがクラウドの稼働状況を報告している「AWS Service Health Dashboard」にあがっている、6月10日の報告を翻訳しながら追ってみましょう(時刻は現地時間の午後です)。

Amazonによる障害復旧報告

AWS Service Health Dashboard

6:39PM 「アベイラビリティゾーン」にあるいくつかのインスタンスが電源の故障によって接続できなくなったことを検知しました。接続は回復済みで、問題を調査中です。

6:54PM いくつかのホストはまだ接続できていません。引き続き調査中です。

7:33PM 中間報告。落雷によって1カ所の「アベイラビリティゾーン」電力配分装置(Power Distribution Unit:PDU)の1つが破損していました。ラック1セット分の給電が止まっており、このラックのインスタンスは停止していますが、それ以外のほとんどのインスタンスには影響していません。まだ完了予定時刻は不明ですが、電源が回復すればインスタンスが復活するでしょう。また、これらのインスタンス以外のすべてのインスタンスは問題なく動作しており、影響を受けたインスタンスもアベイラビリティゾーンのほかの領域で代替インスタンスの起動が可能です。

8:43PM 影響を受けたインスタンスの電源回復の途中です。30分以内に回復が始まる予定です。

9:26PM 電源が回復し、影響を受けたインスタンスも復活しつつあります。

10:10PM 影響を受けたインスタンスのほとんどで電源が回復しました。回復したインスタンスが大丈夫かどうか、確認作業をしています。

11:10PM ほとんどのインスタンスが回復しました。まだ残る部分を作業中です。

1:20AM 確認作業を終了し、電源と接続が回復しました。影響を受けたインスタンスはリブート済みです。繰り返しますが、今回の問題は電源の問題によりアベイラビリティゾーンの限られた一部に影響しただけです。影響を受けたインスタンスはわずか数%であり、サービス全体の問題とはなっていません。

以上がアマゾンの報告の訳(一部省略した部分などもあります)です。

クラウドとホスティングの違い

こうしてみると、発見から完全な復旧までは約6時間かかっています。もしもこれが普通のホスティングサービスで、自分が契約しているサーバに問題が発生したのであれば、利用者は問題が回復するまでは指をくわえて待つしかありません。

しかし、Amazon EC2はプラットフォームをサービスとして提供しているクラウドですから、利用者にとって「自分の契約しているサーバ」は物理的には存在しません。たまたま現在利用しているサーバに何らかの問題が発生したなら、すぐに再起動すればいいだけのこと。Amazon EC2側が適切なサーバへ割り振ってくれるはずです。

そうしたクラウドの仕組みがちゃんと動いていたならば、今回の障害はアマゾンが報告の最後で説明しているように、クラウド全体からすればごく一部で起きた事象であり、クラウド上のアプリケーション運用にとって現実的な影響はほとんどなかったはずです。

関連記事 on Publickey

参考記事 on the Web

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : クラウド , システム運用 , セキュリティ , データセンター



≫次の記事
オペラの「Opera Unite」はWebのリアルタイム化に沿った進化に見える
≪前の記事
企業向けPCの進化はシンクライアントに向かうか

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus