Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(後編)

2009年11月4日

Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェア。クラウド対応のアプリケーションであり、数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分析する方法として注目を集めています。

後編では、10月2日にニューヨークで開催された「Hadoop World:NY 2009」の午後のセッションの資料に目を通し、興味深いポイントを紹介しましょう。午後は3トラックに分かれ30ものセッションが行われていました。

この記事は「Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)」の続きです。

午後のセッション資料からハイライトを紹介

イェール大学のAzza Abouzeid氏とKamil Bajda-Pawlikowski氏は、HadoopとパラレルDBについて解説。パラレルDBは構造化データを扱い、Hadoopは非構造化データが対象。問い合わせ言語や実行方法、粒度などを比較しています。

fig

スケーラビリティはHadoopが優れるが性能はパラレルDBが勝り、結果として両方とも用途別に使い分けるべきだ、ということになったようです(参考:MapReduceとパラレルRDBでベンチマーク対決、勝者はなんとRDB! - Publickey)。

fig

Clouderaが開発中のSqoopについて。MySQLからHadoopへのデータインポートを容易に行うためのツール。Hadoopアプリケーションのためのクラスなども自動生成してくれ、Hiveとも統合しているため、SQL的な問い合わせもそのまま利用できるとされています。

fig
fig

VISAによるHadoopの事例。5億アカウントの利用者から1日に1億トランザクションが発生し、トランザクションあたり200バイトのデータが生成されるという。過去2年間で730億ものトランザクションデータが生成されており、これを分析するのにこれまで1カ月かかっていたものが、13分になったと説明されています。

fig

JP MorganがHadoopを導入した理由について。リレーショナルデータベースは酷使されており、性能をあげるにはメモリを増やす以外にない。プロプライエタリなトランザクションデータベースへ格納されるデータは増加の一途をたどっており、しかもデータは正規化されないものもある。そして、企業向けのデータは少数のベンダー製品に囚われの身となっているも同然で、プロプライエタリなものが多すぎる。もっと選択肢が必要だとの考え。

fig

JP MorganにおけるHadoopのポジショニング。左下にはギガバイトクラスのデータを高速(Low Latency)に処理するインメモリデータベースが位置し、中央付近にはギガバイトからテラバイトのデータを処理するSQLデータベースが多数存在。その右側にはテラバイトのデータを高速に、もしくは多少の時間をかけて分析するデータウェアハウスが並び、いちばん右上には非構造化データでしかもペタバイトクラスのデータを処理するMapReduce処理系(すなわちHadoop)が位置づけられています。

fig

恋人マッチングサイトのeHarmonyの事例。大量の個人情報を基に適切なマッチングを計算するにはn人の二乗となる膨大な計算が必要。現在の10倍のメンバーに対応できる処理能力と、今後の成長に対応できるシステムを探していました。

fig

その要件にマッチしたのがHadoopであり、Amazon EC2のMapReduceサービスを利用してシステムを構築下と説明されています。

fig

データウェアハウス用のデータベース製品を提供するVertica Systemsは、Hadoopとの統合製品を発表。大規模並列のカラムナデータベースであるVertica Analytic Databaseを、Hadoopのデータリポジトリとして利用可能に。これにより、ETLツールなどを用いたデータのインポートや、分析後のデータをBIツールなどで加工しやすくなる(カラムナデータベースについては、記事「カラムナデータベース(列指向データベース)とデータベースの圧縮機能について、マイケル・ストーンブレイカー氏が語っていること」を参考)。

fig

参加者によるレポート記事

日本からHadoop World NY:2009に参加された方の記事やブログも紹介します。

日本では、このHadoop Worldを主催したClouderaも参加して11月13日にHadoop Conference Japan 2009が開催予定です(すでに定員を超えており、申し込みは締め切り済み、僕も間に合いませんでした)。その2日後の11月15日には北京で「Hadoop World:Beijin 2009」が開催される予定です。

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : Hadoop , NoSQL , クラウド



≫次の記事
IBMがWebアプリケーションのUIガイドラインとHTML/CSSのソースコードを公開
≪前の記事
Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus