データベースのスケーラビリティをどうやって向上させるか

2011年6月22日

これまでPublickeyではデータベースのスケーラビリティに関するさまざまなトピックを取り上げてきました。クラウド時代にはスケーラブルなデータベースのニーズがこれまでになく高まっているためです。

この記事では、これまで取り上げてきたデータベースのスケーラビリティに関する技術を少しまとめて紹介しようと思います。

従来のリレーショナルを拡張

従来のリレーショナルデータベースに対して、技術的工夫を凝らすことでスケーラブルなデータベースを実現しようというアプローチにも、さまざまなものがあります。

データベース研究者の大御所、マイケル・ストーンブレイカー氏は、リレーショナルデータベースは決して遅くないと主張。リレーショナルデータベースが遅い原因はロック、ラッチ、リソース管理にあるとして、それらを極力排除した「VoltDB」を開発しています。

Twitterのフレームワーク「Gizzard」は、MySQLをバックエンドにシャーディング(Sharding)を行い、1つのデータベースをハッシュなどを使って複数の部分に分けて分散して格納し、さらにデータのレプリケーションを行うことで耐障害性を向上させています。

MySQLのストレージエンジンをクラウド対応にすることでスケーラブルにした、というのが、Amazonクラウド上でデータベースサービスを提供する「Xeround」です。

SSDに最適化したリレーショナルデータベースをスクラッチから開発することで性能向上を実現しようというのが「RethinkDB」

ソフトウェアとハードウェアを密に統合することを徹底的に追求したのが、オラクルの「Exadata」。最新CPU、大容量メモリ、Flashストレージ、Infinibandなど、あらゆる富豪的アプローチのかたまりです。オラクルの中の人からは「実質、インデックスを付ける必要がないほど速い」との発言を聞いたことも。

インメモリデータベース

ハードウェアの性能向上をリレーショナルデータベースの性能向上に活かす点で、最近注目されているのが、データをメモリ上に保持するインメモリデータベースです。Publickeyで最初に取り上げたのは、オラクルの「TimesTen」でした。

オラクルにはインメモリデータベース的な分散オブジェクトキャッシュとも呼ばれる「Coherence」もあります(追記:Coherenceはインメモリグリッドに分類すべきだったようです)。

最近、インメモリデータベースとして登場したのが、SAPの「HANA」。HANAはインメモリ技術だけでなく、カラム型データベースやデータ圧縮なども組み合わせています。

そのほかインメモリデータベースには、IBMの「solidDB」オープンソースの「Redis」などもあります。

メモリキャッシュ、インメモリデータグリッド

データベースの手前に巨大なキャッシュを置くことで性能向上を実現する手法もよく使われています。

Facebookは、Memcachedを用いてデータベースのデータを積極的にキャッシュに置くことで、大規模なスケーラビリティを実現。

しかもMemcachedには300テラバイトものデータを置いているとのこと。

最近になって登場しているのがインメモリグリッドと呼ばれる分野の製品。VMwareが買収したGemStoneが、そのインメモリデータグリッドの1つ。

レッドハットもこの分野の製品を「JBoss Enterprise Data Grid」として最近発表しました。データベース製品を持たない2社が同様の戦略を採用している点が興味深いですね。

カラム型データベース

大規模データ分析の分野で最近頭角を現しているのが、カラム型データベース技術(カラムナデータベース、列指向データベース)。

カラム型データベースの代表はサイベースの「SybaseIQ」。前述のSAPの「HANA」もカラム型データベース。ヒューレット・パッカードが買収した「Vertica」もカラム型データベースで、ヒューレット・パッカードはいまVerticaのアプライアンスを開発中です。おそらくオラクルのExadataに対抗するようなものになるのではないでしょうか。

NoSQL

クラウドのような分散アーキテクチャに対応したスケーラブルなデータベースが、NoSQLと呼ばれる分野のデータベースで次々に登場し始めました。

グーグルの「BigTable」、アマゾンの「SimpleDB」などがよく知られています。

オープンソースで開発されている「Cassandra」も、NoSQLを代表するソフトウェアです。

広い意味でのNoSQLとしては、Hadoop、HBaseも非常に注目されているソフトウェアです。

リレーショナルデータベースにNoSQL的な機能を組み込んでスケーラビリティを実現しようという実装もあります。

難しくなる「どんなデータベースを選ぶべきか」

データベースというのは、一度システムが稼働し始めると途中で変更することが非常に困難なコンポーネントです。それゆえに、そのシステムにとってどのようなデータベースがもっともふさわしいのか、設計時に慎重に検討する必要があります。

かつて、データベースの選択といえばほぼリレーショナルデータベース一択で、あとはインデックスとチューニングとハードウェア性能で頑張るしかなかったのですが、ここで見てきたようにデータベースの選択肢はここ数年で飛躍的に拡大しました。選択肢が増えたことでシステム設計の自由度が高まった面もありますが、一方で本当に適切なデータベースを選ぶのが難しい時代になってきたのかもしれません。

このエントリーをはてなブックマークに追加
Bookmark this on Delicious

タグ : NoSQL , カラム型データベース , リレーショナルデータベース

≫次の記事
Firefox 5が前バージョンからわずか3カ月で登場。ソフトウェアは小刻みに進化するものへ
≪前の記事
HTML5対応を促進するのはモバイルデバイスの多様化ではないか

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


新サイト「Publickey Topics」始めました!


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. [速報]IBMとマイクロソフトがクラウドで協業を発表。WebSphereやDB2がAzureで、.NETランタイムがBluemixで利用可能に。協業の意味を分析する
  2. Amazonクラウド、ディレクトリサービス「AWS Direcrory Service」開始。Smabaベース、Active Directory対応
  3. Docker 1.3リリース、電子署名付きDockerイメージ、コンテナのプロビジョニング、Mac OSとのディレクトリ共有などの新機能
  4. IBM、半導体事業の売却後もPOWER Systemsなどサーバビジネスは変わらず継続。サーバの設計、研究開発や半導体の基礎研究なども進めると
  5. 「Windows ServerがDockerを採用する」とはどういうことなのか
  6. マイクロソフト、オンプレミス用Azureとなる垂直統合システム「Cloud Platform System」発表。デルのサーバで11月発売
  7. マイクロソフトの最新データセンター事情。リージョンあたり16棟のデータセンターと60万台のサーバ
  8. Amazonクラウド、ディレクトリサービス「AWS Direcrory Service」開始。Sambaベース、Active Directory対応
  9. IBMがSoftLayerを買収して約1年。あれからSoftLayerは変わったのか? CTOに聞く
  10. VMware/Cisco/EMCが合弁で設立したVCE、EMCの傘下に
  11. Google、モバイルBaaSのFirebaseを買収、クラウドに統合へ。モバイルアプリのオフライン対応、リアクティブプログラミングなどを実現
  12. 「パブリッククラウドで最大の仮想マシン」、Azureが最大32物理コア、450GBメモリ、6.5TB SSDの仮想マシン「Gファミリー」と、IOPSが5万以上/レイテンシ1ミリ秒以下の「プレミアムストレージ」を発表
  13. 「ビジネスプロセス上の労働者が半分になる」「アルゴリズムによって考案された破壊的ビジネスの登場」、2020年までにITが引き起こすビジネスの変化トップ10をガートナーが発表
  14. 「クラウドでオラクルは勝ち残っていきますよ」、エリソン氏直属のチーフコーポレートアーキテクトに、OpenStack採用とクラウド戦略を聞く
  15. Microsoft AzureでDocker専用LinuxのCoreOSサポートを発表、マイクロソフト

Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus