Spotifyが全世界でログインできなくなった3月8日の障害について原因を報告。Google CloudのTraffic Directorの障害がgRPCライブラリのバグを踏んだと

2022年3月16日

音楽配信サービスのSpotifyは先週、2022年3月8日の18時頃(世界協定時。日本時間9日午前3時頃)から2時間以上、ログインができなくなるなどの障害がグローバルに発生していました。20時半頃には障害が収束し、正常化しました。

Spotifyのエンジニアリングチームは、この障害の原因についての報告を、ブログの記事「Incident Report: Spotify Outage on March 8」として公開し、Google CloudのTraffic Directorの障害が引き金であったことなどを説明しています。

fig

Google Cloud Traffic Directorの障害が引き金に

Spotifyのシステムはマイクロサービスでできており、サービス間でお互いを発見(Discovery)するために、多くはDNSベースのサービスディスカバリを利用していたものの、一部でEnvoyプロキシのxDS APIベースのGoogle Cloud Traffic Directorを採用していたとのこと。

そして3月8日にこのGoogle Cloudが提供するTraffic Directorに障害が発生

これがgRPCを用いたクライアントライブラリのバグ、処理に失敗した際にチャネルにエラーを伝播していくというバグと組み合わさり、Spotifyのログイン処理に問題を引き起こしたと説明されました。

Spotifyのエンジニアチームはこの原因を発見し次第、障害が発生したシステムをDNSベースのサービスディスカバリへと設定変更し、正常な状態へと回復させました。

Spotifyは今後の対策として、今回の障害についてGoogle Cloudと協力して分析を行うとともに、障害発生をさらに早期に発見するための監視とアラート機能を強化するとのことです。

このエントリーをはてなブックマークに追加
follow us in feedly


関連タグ Google Cloud / クラウド / クラウド障害 / Microservices



タグクラウド(β版)

クラウド / AWS / Azure / Google Cloud
コンテナ / Docker / Kubernetes
クラウドネイティブ / サーバレス
クラウド障害 / 運用・監視

プログラミング言語 / 開発ツール
JavaScript / Java / .NET / WebAssembly
HTML/CSS / Web標準
アジャイル開発 / スクラム / DevOps / CI/CD
ソフトウェアテスト・品質
ローコード/ノーコード開発

データベース / RDB / NoSQL / 機械学習・AI
Oracle Database / MySQL / PostgreSQL
Office / 業務アプリケーション

ネットワーク / HTTP / QUIC / セキュリティ
OS / Windows / Linux / VMware
ハードウェア / サーバ / ストレージ

業界動向 / 働き方 / 給与・年収
編集後記 / 殿堂入り / おもしろ

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本