Spotifyが全世界でログインできなくなった3月8日の障害について原因を報告。Google CloudのTraffic Directorの障害がgRPCライブラリのバグを踏んだと
音楽配信サービスのSpotifyは先週、2022年3月8日の18時頃(世界協定時。日本時間9日午前3時頃)から2時間以上、ログインができなくなるなどの障害がグローバルに発生していました。20時半頃には障害が収束し、正常化しました。
Spotifyのエンジニアリングチームは、この障害の原因についての報告を、ブログの記事「Incident Report: Spotify Outage on March 8」として公開し、Google CloudのTraffic Directorの障害が引き金であったことなどを説明しています。
Google Cloud Traffic Directorの障害が引き金に
Spotifyのシステムはマイクロサービスでできており、サービス間でお互いを発見(Discovery)するために、多くはDNSベースのサービスディスカバリを利用していたものの、一部でEnvoyプロキシのxDS APIベースのGoogle Cloud Traffic Directorを採用していたとのこと。
そして3月8日にこのGoogle Cloudが提供するTraffic Directorに障害が発生。
これがgRPCを用いたクライアントライブラリのバグ、処理に失敗した際にチャネルにエラーを伝播していくというバグと組み合わさり、Spotifyのログイン処理に問題を引き起こしたと説明されました。
Spotifyのエンジニアチームはこの原因を発見し次第、障害が発生したシステムをDNSベースのサービスディスカバリへと設定変更し、正常な状態へと回復させました。
Spotifyは今後の対策として、今回の障害についてGoogle Cloudと協力して分析を行うとともに、障害発生をさらに早期に発見するための監視とアラート機能を強化するとのことです。
あわせて読みたい
AWS、オンラインロールプレイングゲームでAWSのソリューション構築を学べる「AWS Cloud Quest」公開。実際にプレイしてみた
≪前の記事
React 18リリース候補版が公開。Automatic BatchingやServer-Side Renderingのストリーミング対応による速度向上、IE対応の終了など