Google Appsのほとんどのサービスが異常停止。対応チームが12分でデバッグし約35分で復旧へ

2014年1月27日

GmailやGoogle Documents、Google Calendarなど、Google Appsのほとんどのサービスが異常停止するという事故が1月24日午前11時前（日本時間で1月25日土曜日の午前4時前）に発生しました。

Official Blog: Today’s outage for several Google services

障害は約35分続き、利用中のユーザー全てに影響したとのことです。原因はサービス関連のコンフィグレーションを設定するサーバにバグがあったとのこと。

原因と今後の対応について、Google Official Blogのエントリ「Today’s outage for several Google services」で説明されています。重要な部分を引用し、訳しました。

コンフィグレーション生成システムにバグが発生

午前10時55分にバグが発生します。

At 10:55 a.m. PST this morning, an internal system that generates configurations—essentially, information that tells other systems how to behave—encountered a software bug and generated an incorrect configuration.

今朝の午前10時55分（米太平洋標準時）、コンフィグレーションを生成する内部システム、つまりどう振る舞うべきかを他のシステムに伝えるためのシステムがバグを引き起こし、間違ったコンフィグレーションを生成した。

The incorrect configuration was sent to live services over the next 15 minutes, caused users’ requests for their data to be ignored, and those services, in turn, generated errors.

間違ったコンフィグレーションは稼働中のサービスへ15分以上伝えられ、その結果データに対するユーザーのリクエストは無視されるようになり、やがてエラーを生成するようになった。

対応チームが障害に気づくのは7分後の11時2分。そこから12分後の11時14分にはエラーがクリアされます。

Users began seeing these errors on affected services at 11:02 a.m., and at that time our internal monitoring alerted Google’s Site Reliability Team. Engineers were still debugging 12 minutes later when the same system, having automatically cleared the original error, generated a new correct configuration at 11:14 a.m. and began sending it; errors subsided rapidly starting at this time.

午前11時2分、ユーザーは影響を受けたサービスのエラーを見るようになり、そのときにモニタリングによってGoogleのSite Reliabilityチームにアラートが伝えられた。12分後の11時14分、エンジニア達はデバッグを続けて当初のエラーは自動的にクリアされ、正常な新規コンフィグレーションが生成、伝達が始まった。この時点でエラーは急速に沈静化していく。

35分後の11時30分までには、ほぼ復旧したとのこと。

By 11:30 a.m. the correct configuration was live everywhere and almost all users’ service was restored.

11時30分までに、正しいコンフィグレーションが全体に行き渡り、ほんとんど全てのユーザーのサービスが復帰した。

コンフィグレーションのチェックとモニタリングの強化

今後の対応については、以下のようにするとブログで説明されています。

1.バグを修正し、今後同様の同様のバグが発生したとしても問題が起きないよう、コンフィグレーションの審査を行うようにする。
2.コンフィグレーション入力時のバリデーションチェックをさらに追加し、間違ったコンフィグレーションが発生してもサービスの破壊につながらないようにする。
3.問題発生時の検知をもっと迅速に行うため、モニタリングのターゲットを追加する。