マイクロソフト、AzureやMicrosoft 365などに影響した先週の大規模障害の原因報告。WAN内の全ルータが再計算状態に突入し、パケット転送が不可に

2023年2月1日

マイクロソフトは、日本時間で先週の1月25日午後4時頃から最大で約5時間半に渡り、Microsoft AzureやMicrosoft 365、Microsoft Teamsなど幅広いサービスがほぼ全世界で利用できなくなっていた大規模障害について、予備的な報告書を公開しました。

WAN内の全てのルーターに誤ったメッセージが送信

報告書の原因について説明している部分を引用します。

まず原因について。同社のワイドエリアネットワークに対して行われた設定変更が全体に影響したと説明しています。

We determined that a change made to the Microsoft Wide Area Network (WAN) impacted connectivity between clients on the internet to Azure, connectivity across regions, as well as cross-premises connectivity via ExpressRoute.

原因としては、Microsoft Wide Area Network (WAN) に対して加えられた変更が、Azureとインターネット上のクライアントとの接続やリージョン間の接続、ExpressRouteを介した企業間の接続などに影響を与えた結果であると判断しました。

具体的には、設定変更のためにあるルーターにコマンドを送ったところ、そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信。その結果、WAN内のすべてのルーターが再計算状態に突入し、適切にパケットを転送できなくなったことが原因とのこと。

As part of a planned change to update the IP address on a WAN router, a command given to the router caused it to send messages to all other routers in the WAN, which resulted in all of them recomputing their adjacency and forwarding tables. During this re-computation process, the routers were unable to correctly forward packets traversing them.

計画的な設定変更の一環としてあるWANルーターのIPアドレスをアップデートしたところ、そのルーターに送られたコマンドによって、そのルーターからWAN内の他のすべてのルーターにメッセージが送信されました。その結果、すべてのルーターで隣接テーブルと転送テーブルの再計算が引き起こされたのです。そして再計算の間、ルーターは通過するパケットを適切に転送できませんでした。

問題の発端となったルーターは、マイクロソフトの認証プロセスで検証されていなかったことも付け加えられています。

The command that caused the issue has different behaviors on different network devices, and the command had not been vetted using our full qualification process on the router on which it was executed.

その問題を引き起こしたコマンドは、ネットワーク機器ごとに動作が異なる上、問題のコマンドが実行されたルーターは、当社の完全な認証プロセスでの検証が行われていませんでした。