Google App Engineダウンの原因はデータセンターの電源故障。さらに復旧手順のミスが重なった

2010年3月 9日

米国時間の2月24日、グーグルが提供するGoogle App Engineのデータストアが障害により停止するという事故が発生しました。この事故の状況については、そのときの記事「Google App Engineが昨夜ダウン。障害がごく一部に残り、対応チームは現在も作業中」」で詳しく報じました。

それから2週間、グーグルが原因と対策について書いたドキュメントをGoogle Groupに「Post-mortem for February 24th, 2010 outage - Google App Engine | Google Groups」というメッセージとしてポストされました。

原因はデータセンターの電源障害

グーグルの解説によると、今回の障害の直接の原因はプライマリデータセンターの電源障害によるもの。もともとApp Engineのインフラはこうした障害に対して素早く復旧できるように設計されていたそうなのですが、この状況に対するための手順書にも問題があり、それらが重なったことが復旧まで時間がかかった原因だと説明されています。

グーグルは今回の復旧対応について次のように自己分析しています。以下はポストされたメッセージの該当部分を翻訳したものです。

訓練と手順書を改善

グーグルは上記の問題を改善するために、以下の改善をするとのことです。

グーグルのように最先端かつ自動化が進んだデータセンターといえども、大規模なフェイルオーバーが完全に自動化されているわけではないのですね。しかも、かなりの手順が人手によって行われ、そこにミスが入り込むほど複雑な手順になっている、というのは意外でした。


このエントリーをはてなブックマークに追加 Bookmark this on Delicious     fig Follow Me  fig RSS

タグ : Google , Google App Engine , クラウド , データセンター

次の記事
超簡単プログラミング「MS Small Basic」が正式版で無料公開、サンデープログラミングにどうですか?
前の記事
TwitterとDiggがNoSQLの「Cassandra」を選ぶ理由

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. 特許庁の基幹システム失敗の背景にある、日本に…
  2. 特許庁の基幹システムはなぜ失敗したのか。元内…
  3. 国内の開発者が使っている言語、1位C、2位V…
  4. なぜ米ヒューレット・パッカードは、一挙に16…
  5. OpenFlowベンチャーのNicira N…
  6. 「絶対落ちないシステムを作れ」という要件に、…
  7. ライアン・ダール氏、Node.jsの開発リー…
  8. フラッシュストレージが最大500TB! 米N…
  9. ソフトウェアテストの30年前と30年後(前編…
  10. ソフトウェアテストの近未来を話そう(前編)~…
  11. マイクロソフトの責任者が語る「われわれはどの…
  12. ソフトウェアテストの近未来を話そう(後編)~…
  13. 2012年1月の人気記事「グーグルのバグ予測…
  14. ソフトウェアテストの30年前と30年後(後編…
  15. EMC、満を持してPCIe接続フラッシュスト…

最新記事 10本

バックナンバー



アルファブロガー・アワード2010受賞 Publickeyはアルファブロガー・アワード 2010を受賞しました! いつもご愛読ありがとうございます。









blog comments powered by Disqus