Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010

2010年10月18日

先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。主催はHadoopのディストリビューションベンダであるCloudera。参加者は900名を超えたともいわれ、日本からも30名程度が参加しました。

このイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日本でのHadoopビジネスを積極展開することを明らかにしています。NTTデータによる講演のなかでリクルートの米谷修氏が行ったHadoopに関する比較評価を紹介します。

この記事はHadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010」の続きです。

3種類のデータベースとHadoopを比較

リクルート MIT United システム基盤室エグゼクティブマネージャー 米谷修氏。

fig

MITは各事業を横断したシステム部門。全システム共通のクラウド型インフラや、Webサイト開発プロジェクトの品質担保の責任を負っている。

リクルートでは、以下の4つのソフトウェアを、データ分析の面で検証した。

  • 商用のデータウェアハウス用データベース(I)
  • 商用のデータベース+RAMディスク(O)
  • PostgreSQL Clusterをベースとした商用データーベース(G)
  • Hadoop/HIVE

(追記 2011/4/15 : 関係者に正しい情報をご指摘いただき、上記のIとOを入れ替えました)

Hadoop/HIVEの検証はNTTデータと一緒に行っており、その検証について紹介する。

fig

評価軸は以下の10個を設けた。

  • 小規模バッチ処理適合性
  • 運用簡易性
  • 製品信頼性・サポート充実度
  • 拡張性・大規模バッチ処理適合性
  • 可用性
  • AP開発容易性
  • 移行簡易性(既存アプリケーションのマイグレーションコスト)
  • オンライン処理適合性
  • 経済性(現行同等規模の構成)
  • 先進性/適用域の将来性

図の赤がHadoopの評価を示しており、Hadoopの強かった点は「可用性」と「拡張性・大規模バッチ処理適合性」。弱かった点は「オンライン処理適合性」や「移行簡易性(既存アプリケーションのマイグレーションコスト」。従来のリレーショナルデータベースからHadoopへ移行ことを想定すると、アプリケーションの移行コストはどうしても大きくなる。

fig

Hadoopには弱点もあるが、それを超える「可用性」「スケーラビリティ」の魅力がある。また、リレーショナルデータベースやデータウェアハウス用の製品と競合するものではなく、適用領域が異なる使い分けるべきもの、であることもわかった。

既存のSQL専門のエンジニアにもMapReduceのノウハウを展開へ

リクルートでも、ビジネスを成長する上で「大量データ処理」は重要なテーマだと捉えている。その領域で見てみると、Hadoop/HIVEが最も適したものとなる。

リクルートはHadoopを小規模なものから利用を開始し、ノウハウを溜めてゆく計画だ。既存のSQLを専門としてきた社内エンジニアに対し、MapReduceのノウハウを展開する必要性も感じている。

現在、社内の大規模なインフラの入れ替えを行っている。その枠組みの中で、Hadoopのクラスタを作っている。

fig

SQL的な集計が持つ限界に束縛されずに、Hadoop/HIVEを使いこなせるようになることで、これまでにはないより良い分析が可能になり、最終的に高い顧客満足度を得ることができると考える。

fig

例えば、これまでWebサイトの顧客動向の分析について、処理にかかる日数を減らすために処理対象のデータ量の低減を行っていたが、Hadoop/HIVEにより長い期間のデータを対象とした分析が現実のものとなる。

今後は実サービスでの利用状況のフィードバックなどを中心に、HadoopやHIVEコミュニティの方々ときちんと協力してやっていきたい。

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本