Google Compute Engine、いつもは自動で行うネットワーク操作を手動で行い、ミスに気付かず一部でネットワーク障害

2015年11月30日

2015年11月23日、Google Compute Engineの欧州西第一リージョン（Europe-West 1）から一部のインターネットに対する接続が約70分途切れるという障害が発生しました。

Googleはこの障害についての原因を「Google Cloud Status」にて発表しています。

Google Cloud Status

それによると、通常は自動操作で行うネットワークの操作をネットワークエンジニアが手動で行った結果、その操作によって障害が発生。しかしマニュアル操作だったため監視が行われずに見逃されてしまったという、Googleらしくない運用が原因だったと報告されています。

Googleといえどもまだ自動化の穴があるのですね。

以下では、Googleの報告内容をダイジェストで紹介しましょう。

マニュアル操作のため自動セーフティチェックが働かなかった

2015年11月27日　2015年11月23日、Google Compute Engine欧州西第一リージョンからインターネットの接続先の一部に対して、約70分のあいだ接続できなくなるという障害が発生した。

原因 11月23日11時51分。Googleのネットワークエンジニアは欧州にてネットワークの追加リンクをアクティベートした。そこにはすでに多くのピアリンクがグローバルに接続されている。

追加したこのリンクは、ピアリンクに対して、Googleのエンジニアが予想していた以上の接続先にトラフィックをルート可能であるというシグナルを送り始めた。それはそのリンクの容量を超えるものでもあった。Googleのネットワークはそれに応答し、大量のトラフィックを流し始めた。

11時55分、そのリンクの能力が上限に達し、多くのトラフィックを取りこぼすようになる。

通常の運用では、リンク同士が自動的にアクティベートされ、それぞれのセーフティチェックによって検出され、その状態が修正される。しかし今回は別の障害のおかげでこの自動アクティベート機能が働かなかったため、接続は手動で行われた。そのため、セーフティチェックは働かなかった。

自動チェック機能はリンクがアクティベートされてから約1時間のあいだネットワークを保護することが想定され、その後通常のモニタリング機能が開始される。しかし今回はリンクアクティベート時の自動チェック機能が働かなかったため、通常のモニタリング機能が開始されるまでの61分のあいだのチェック機能が失われていた。

モニタリング機能が開始された後、アラートがGoogleのネットワークエンジニアに報告された。

12時56分に自動アラートが発生、13時2分にネットワークエンジニアが新しいリンクへのトラフィックを逃がすようにし、13時5分には正常状態に戻った。

再発生防止のため、Googleネットワークエンジニアは手順を変更し、マニュアル操作でのアクティベーションを許可しないようにした。自動操作でのみリンクのアクティベーションを可能にし、さらにリンクアクティベーション後のセーフティチェックを拡張した。