Cloudflareが重大なサービス障害の原因を説明。実はWorkers KVがGoogle Cloudに依存しており、Google Cloudの障害が原因だったと
日本時間6月13日午前2時52分から約2時間半、CloudflareはキーバリューストアのWorkers KVやCloudflareダッシュボードの一部を含む同社の重要なサービスに影響を与える重大なサービス障害を起こしています。
Cloudflareは今回の障害について、ブログ記事「2025年6月12日、Cloudflareサービス障害」を公開し、その状況や影響範囲、原因などについて次のように説明しました。
2025年6月12日、Cloudflareは、Workers KV、WARP、Access、Gateway、Images、Stream、Workers AI、Turnstile、Challenges、AutoRAG、Zaraz、およびCloudflareダッシュボードの一部を含む重要なサービスに影響を与える重大なサービス障害を経験しました。
この障害は2時間28分間続き、影響を受けたサービスを使用しているCloudflareのすべてのお客様に世界的な影響を与えました。この障害の原因は、Workers KVサービスが使用する基盤ストレージインフラストラクチャの障害によるものです。これは、多くのCloudflare製品と重大な依存関係にあり、影響を受けたサービス全体の設定、認証、アセット配信が依存していました。
この説明にあるように、障害を引き起こしたのはキーバリューストアのWorkers KVが基盤とするストレージインフラの障害によるものです。
そしてCloudflareの多くのサービスがデータ基盤としてのWorkers KVに依存していたため、多数のサービスの障害につながりました。
障害を起こしたWorkers KVが基盤とするストレージインフラは、実はCloudflareではない他のクラウドプロバイダーが運営するものだと説明されています。
このインフラストラクチャの一部はサードパーティのクラウドプロバイダーによって支えられており、本日障害が発生し、当社のKVサービスの可用性に直接影響を与えました。
CloudflareのWorkers KVを支えていたサードパーティのクラウドプロバイダーとはどこでしょうか?
ほぼ同時にGoogle Cloudが大規模障害を起こしていた
Cloudflareで障害が発生したのが、日本時間6月13日午前2時52分。
ほぼ同時刻の6月13日金曜日の午前2時49分から大規模障害を起こしていたクラウドがあります。Google Cloudです。
Google Cloudはこのとき、同クラウドの世界中のリージョンにおいてAPIへのアクセスに対して503エラーの発生が増加するなどの障害を起こしていました。
参考:Google Cloud、世界中のリージョンが影響を受けた大規模障害、原因は管理システムがヌルポインタ参照でクラッシュしたこと
状況からして、サードパーティのクラウドプロバイダーとは、Google Cloudであることはほぼ確実です。
PublickeyがCloudflareに問い合わせたところ、このサードパーティのクラウドプロバイダがGoogle Cloudであると同社は認めているとのことでした。
CloudflareはGoogle Cloudへの依存を明確にすべきだった
しかし多くのCloudflareのユーザーにとって、同社が提供するキーバリューストアのような基本的なサービスがGoogle Cloudに依存し、さらにその障害の巻き添えになって落ちてしまうことは想定外だったのではないでしょうか。
Cloudflareは同社のサービスが外部のどのクラウドに依存しているのか、もっと積極的に明確にするべきだったのではないかと思います。
依存を解消するための作業など実行中
Cloudflareは以下のように今回の障害の原因が同社にあることを率直に認め、改善を図るとしています。
これは当社の失敗であり、この障害の直接的な原因(またはトリガー)はサードパーティベンダーの障害でしたが、当社が選択した依存関係とそれに基づくアーキテクチャの選択方法について、当社に最終的な責任があります。
具体的には、Workers KVのストレージインフラストラクチャ内の冗長性を改善し、単一プロバイダーへの依存を解消するための作業を前倒ししていること、このインシデントの影響を受けた個々の製品の短期的な影響範囲の修復を行い、各製品がサードパーティとの依存関係を含む単一障害点によって引き起こされるサービスの損失に耐えられるようにする、などを始めとする施策を実行中とのことです。