Google App Engineダウンの原因はデータセンターの電源故障。さらに復旧手順のミスが重なった

2010年3月 9日はてなブックマーク del.icio.us Twitter

米国時間の2月24日、グーグルが提供するGoogle App Engineのデータストアが障害により停止するという事故が発生しました。この事故の状況については、そのときの記事「Google App Engineが昨夜ダウン。障害がごく一部に残り、対応チームは現在も作業中」」で詳しく報じました。

それから2週間、グーグルが原因と対策について書いたドキュメントをGoogle Groupに「Post-mortem for February 24th, 2010 outage - Google App Engine | Google Groups」というメッセージとしてポストされました。

原因はデータセンターの電源障害

グーグルの解説によると、今回の障害の直接の原因はプライマリデータセンターの電源障害によるもの。もともとApp Engineのインフラはこうした障害に対して素早く復旧できるように設計されていたそうなのですが、この状況に対するための手順書にも問題があり、それらが重なったことが復旧まで時間がかかった原因だと説明されています。

グーグルは今回の復旧対応について次のように自己分析しています。以下はポストされたメッセージの該当部分を翻訳したものです。

訓練と手順書を改善

グーグルは上記の問題を改善するために、以下の改善をするとのことです。

グーグルのように最先端かつ自動化が進んだデータセンターといえども、大規模なフェイルオーバーが完全に自動化されているわけではないのですね。しかも、かなりの手順が人手によって行われ、そこにミスが入り込むほど複雑な手順になっている、というのは意外でした。


次の記事≫ 超簡単プログラミング「MS Small Basic」が正式版で無料公開、サンデープログラミングにどうですか?
前の記事≪ TwitterとDiggがNoSQLの「Cassandra」を選ぶ理由

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed
≫ 過去の記事を読む




アクセスランキング - 過去7日間

  1. IT系上場企業の平均給与を業種別にみてみた …
  2. IT系上場企業の平均給与を業種別にみてみた …
  3. Cassandra入門と、さらに詳しく知るた…
  4. SIerとパッケージベンダはどちらが高給? …
  5. ミクシィのNoSQLデータベース「Tokyo…
  6. 仮想化は、クラウドのインフラとしては不要では…
  7. Windows Azureも事実上、日本にデ…
  8. セキュリティを高めた「仮想化Firefox」…
  9. TwitterがBitTorrentで高速に…
  10. グーグル、「政府専用Google Apps」…
  11. アドビ「iPadでFlashアプリを動かす」…
  12. ITまんが 2010年版 ~ ITが楽しく分…
  13. 楽天、性能向上を分散オブジェクトキャッシュで…
  14. SQLの都市伝説。マイケル・ストーンブレイカ…

アーカイブ  (最新記事10)

バックナンバー

2010年7月
2010年6月
2010年5月
2010年4月
2010年3月
2010年2月
2010年1月
2009年12月
2009年11月
2009年10月
2009年9月
2009年8月
2009年7月
2009年6月
2009年5月
2009年4月
2009年3月
2009年2月






Trackbacks (TrackbackURL:http://www.publickey1.jp/mt/mt-tb.cgi/1014)

  • (トラックバックは承認後に掲載されます)

Comments