Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010

2010年10月18日

先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。主催はHadoopのディストリビューションベンダであるCloudera。参加者は900名を超えたともいわれ、日本からも30名程度が参加しました。

このイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日本でのHadoopビジネスを積極展開することを明らかにしています。NTTデータによる講演のなかでリクルートの米谷修氏が行ったHadoopに関する比較評価を紹介します。

この記事はHadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010」の続きです。

3種類のデータベースとHadoopを比較

リクルート MIT United システム基盤室エグゼクティブマネージャー 米谷修氏。

fig

MITは各事業を横断したシステム部門。全システム共通のクラウド型インフラや、Webサイト開発プロジェクトの品質担保の責任を負っている。

リクルートでは、以下の4つのソフトウェアを、データ分析の面で検証した。

(追記 2011/4/15 : 関係者に正しい情報をご指摘いただき、上記のIとOを入れ替えました)

Hadoop/HIVEの検証はNTTデータと一緒に行っており、その検証について紹介する。

fig

評価軸は以下の10個を設けた。

図の赤がHadoopの評価を示しており、Hadoopの強かった点は「可用性」と「拡張性・大規模バッチ処理適合性」。弱かった点は「オンライン処理適合性」や「移行簡易性(既存アプリケーションのマイグレーションコスト」。従来のリレーショナルデータベースからHadoopへ移行ことを想定すると、アプリケーションの移行コストはどうしても大きくなる。

fig

Hadoopには弱点もあるが、それを超える「可用性」「スケーラビリティ」の魅力がある。また、リレーショナルデータベースやデータウェアハウス用の製品と競合するものではなく、適用領域が異なる使い分けるべきもの、であることもわかった。

既存のSQL専門のエンジニアにもMapReduceのノウハウを展開へ

リクルートでも、ビジネスを成長する上で「大量データ処理」は重要なテーマだと捉えている。その領域で見てみると、Hadoop/HIVEが最も適したものとなる。

リクルートはHadoopを小規模なものから利用を開始し、ノウハウを溜めてゆく計画だ。既存のSQLを専門としてきた社内エンジニアに対し、MapReduceのノウハウを展開する必要性も感じている。

現在、社内の大規模なインフラの入れ替えを行っている。その枠組みの中で、Hadoopのクラスタを作っている。

fig

SQL的な集計が持つ限界に束縛されずに、Hadoop/HIVEを使いこなせるようになることで、これまでにはないより良い分析が可能になり、最終的に高い顧客満足度を得ることができると考える。

fig

例えば、これまでWebサイトの顧客動向の分析について、処理にかかる日数を減らすために処理対象のデータ量の低減を行っていたが、Hadoop/HIVEにより長い期間のデータを対象とした分析が現実のものとなる。

今後は実サービスでの利用状況のフィードバックなどを中心に、HadoopやHIVEコミュニティの方々ときちんと協力してやっていきたい。

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : Hadoop , MapReduce , クラウド , リレーショナルデータベース



≫次の記事
今年2010年が「日本のクラウド元年だ!」 とプレゼンするための資料を集めてみた
≪前の記事
Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig