Google App Engineダウンの原因はデータセンターの電源故障。さらに復旧手順のミスが重なった

2010年3月9日

米国時間の2月24日、グーグルが提供するGoogle App Engineのデータストアが障害により停止するという事故が発生しました。この事故の状況については、そのときの記事「Google App Engineが昨夜ダウン。障害がごく一部に残り、対応チームは現在も作業中」」で詳しく報じました。

それから2週間、グーグルが原因と対策について書いたドキュメントをGoogle Groupに「Post-mortem for February 24th, 2010 outage - Google App Engine | Google Groups」というメッセージとしてポストされました。

原因はデータセンターの電源障害

グーグルの解説によると、今回の障害の直接の原因はプライマリデータセンターの電源障害によるもの。もともとApp Engineのインフラはこうした障害に対して素早く復旧できるように設計されていたそうなのですが、この状況に対するための手順書にも問題があり、それらが重なったことが復旧まで時間がかかった原因だと説明されています。

グーグルは今回の復旧対応について次のように自己分析しています。以下はポストされたメッセージの該当部分を翻訳したものです。

訓練と手順書を改善

グーグルは上記の問題を改善するために、以下の改善をするとのことです。

グーグルのように最先端かつ自動化が進んだデータセンターといえども、大規模なフェイルオーバーが完全に自動化されているわけではないのですね。しかも、かなりの手順が人手によって行われ、そこにミスが入り込むほど複雑な手順になっている、というのは意外でした。

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : Google , Google App Engine , クラウド , データセンター



≫次の記事
超簡単プログラミング「MS Small Basic」が正式版で無料公開、サンデープログラミングにどうですか?
≪前の記事
TwitterとDiggがNoSQLの「Cassandra」を選ぶ理由

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus