「ストレージの事前検証が十分にできなかった」さくらインターネット田中社長、クラウドのストレージトラブルの原因について

2012年6月25日

さくらのクラウドで昨年から発生したストレージのトラブルについて、さくらインターネットは今日、詳細な報告書を公開しました

Publickeyでは同社代表取締役社長 田中邦裕氏、さくらインターネット研究所 所長 鷲北賢氏に対してインタビューを行い、トラブルを引き起こした原因がどこにあり、その教訓は何なのかを聞きました。

ストレージトラブルの教訓は「リスクを引き受けるため、十分に検証せよ」

──── 「さくらのクラウド」でのストレージのトラブルについて、今回報告書を公開され、また新たな自社製ストレージも発表されました。これまでを振り返っていただくと、トラブルを引き起こした原因はどこにあったとお考えですか?

田中氏 ストレージ装置の採用時にきちんとしたテストをできていなかった。具体的にいえばフル負荷をかけたテストができていなかったのが原因です。本来サービス提供者である自社が負うべきリスクを、製品ベンダを信用してベンダに移転していたことも要因としてあげられます。

当社に共有ストレージの知見が不足していた中で、その足りない知見をベンダに頼りながらやっていました。これは一般のシステム開発ではとりうる策だとは思いますが、パブリッククラウドではできませんでした。

当社では、ネットワーク機器やサーバなどは採用前にかなり検証しています。「カタログスペックは信用できない」というのがキーワードになっていて、ネットワークのスループットもサーバの消費電力も実際に検証してみないと本当のところは分かりません。

検証して問題があるのならば、そういう機器を採用すべきではなかった。

ただ、共有ストレージについては十分に検証する方法が分かっていませんでした。それでも、ベンダのサポートがあればなんとかしてくれるだろう、という甘えがあったのかもしれません(新野注:結果的にベンダサポートでは、問題が解決できなかったことが報告書で示されている)。

鷲北氏 共有ストレージの限界を見る上での最大の問題は、やはり多数のクライアントを用意するのが難しかったことでした。限定的なクライアント数しか用意できませんでした。クライアント数が少なくても、それぞれの圧力が大きければストレージに対する総合的な圧力は同じで、クライアント数が多いテストを代替できると考えていました。

しかし実際には、処理量が数千に分散されたときの動作チェックができていませんでした。

田中 一週間かけて起きる問題というのもあって、数時間や数日ではなく、数週間といった期間をかけて負荷テストをやっていなかった、というところにも問題がありました。

結論として、やはり機器の性能はカタログ通りではない(だからきちんと検証が必要で)、またパブリッククラウドでは、通常のベンダサポートでは間に合わない。そうしたことが教訓だったと思います。

ストレージ提供ベンダからはコメントとれず

さくらインターネットの報告書やインタビューにおいては、同社が採用したストレージベンダや機種については明示されていません。しかし同社が採用したのは日本オラクルの「Sun ZFS Storage Appliance」であることが事実上明らかになっています(日本オラクルのプレスリリース)。

Publickeyでは日本オラクルにも本件について取材の申し込みをしておりましたが、残念ながら本件についての取材許可はいただけませんでした。

さくらインターネットでは、今回のトラブルから学んだ教訓を活かし、自社開発した新ストレージのβテストを本日から開始するとしています。新ストレージについては、別の記事で取り上げる予定です。(6/26 0:40 新ストレージについて以下の記事を書きました)

Tags: クラウド ストレージ さくらインターネット

このエントリーをはてなブックマークに追加
ツイート
follow us in feedly





タグクラウド

クラウド / AWS / Azure / Google Cloud
コンテナ / Docker / Kubernetes
クラウドネイティブ / サーバレス
クラウド障害 / 運用・監視

プログラミング言語 / 開発ツール
JavaScript / Java / .NET / WebAssembly
HTML/CSS / Web標準

アジャイル開発 / スクラム / DevOps / CI/CD
ソフトウェアテスト・品質
ローコード/ノーコード開発

データベース / RDB / NoSQL / 機械学習・AI
Oracle Database / MySQL / PostgreSQL
Office / 業務アプリケーション

ネットワーク / HTTP / QUIC / セキュリティ
OS / Windows / Linux / VMware
ハードウェア / サーバ / ストレージ

業界動向 / 働き方 / 給与・年収
編集後記 / 殿堂入り / おもしろ

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本