Fastlyが大規模障害の経緯を公開、原因はソフトウェアのバグ。障害を1分以内に検知し、49分でおおむね復旧させたと報告

2021年6月9日

CDNベンダ大手のFastlyが日本時間6月8日夕方に障害を発生、その影響は国内にもおよび、メルカリや楽天市場、Amazon.co.jp、Twitter、ABEMAなど多くのサービスに接続できないなどの障害が発生しました。

Fastlyはこの障害についての経緯を同社のブログに記事「Summary of June 8 outage」として報告しています。

報告によると、同社は障害の発生から1分以内に検知し、対応。49分後にはおおむね復旧させたとしています。

We detected the disruption within one minute, then identified and isolated the cause, and disabled the configuration. Within 49 minutes, 95% of our network was operating as normal.

私たちは障害を1分以内に検知し、原因を特定して隔離、設定を無効化しました。そして49分後には、ネットワークの95%が正常動作となりました。

障害の原因は、過去にデプロイしたソフトウェアに特定の条件下で発生するバグが含まれていたとのことです。ただし、それがどのようなバグであるかは説明されていません。

On May 12, we began a software deployment that introduced a bug that could be triggered by a specific customer configuration under specific circumstances

5月12日に、あるソフトウェアをデプロイしましたが、これには特定の状況下で特定の顧客の設定によって引き起こされる可能性のあるバグが含まれていました。

このバグが6月8日夕方に顕在化し、同社のネットワークの85%でエラーを引き起こしたとのこと。

同社は下記の様に対応したと報告しています。時間は世界標準時(発生時間の世界標準時9時47分は、日本時間午後6時47分)。

09:47 グローバルで障害発生
09:48 モニタリングにより障害を検知
09:58 状況報告を公開
10:27 原因となった顧客のコンフィグレーションを特定
10:36 リカバリ開始
11:00 おおむね復旧
12:35 インシデント軽減
12:44 復旧したとステータス報告
17:25 バグフィクスをデプロイ

同社は今後の対策として、バグの修正版を速やかにネットワーク全体に展開すること、本インシデントの詳細な振り返りをあらためて行うこと、テストプロセスでなぜバグが見過ごされたかを調査すること、復旧時間の短縮に取り組むことなどを挙げています。

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本