Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(後編)

2009年11月 4日

Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェア。クラウド対応のアプリケーションであり、数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分析する方法として注目を集めています。

後編では、10月2日にニューヨークで開催された「Hadoop World:NY 2009」の午後のセッションの資料に目を通し、興味深いポイントを紹介しましょう。午後は3トラックに分かれ30ものセッションが行われていました。

この記事は「Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)」の続きです。

午後のセッション資料からハイライトを紹介

イェール大学のAzza Abouzeid氏とKamil Bajda-Pawlikowski氏は、HadoopとパラレルDBについて解説。パラレルDBは構造化データを扱い、Hadoopは非構造化データが対象。問い合わせ言語や実行方法、粒度などを比較しています。

fig

スケーラビリティはHadoopが優れるが性能はパラレルDBが勝り、結果として両方とも用途別に使い分けるべきだ、ということになったようです(参考:MapReduceとパラレルRDBでベンチマーク対決、勝者はなんとRDB! - Publickey)。

fig

Clouderaが開発中のSqoopについて。MySQLからHadoopへのデータインポートを容易に行うためのツール。Hadoopアプリケーションのためのクラスなども自動生成してくれ、Hiveとも統合しているため、SQL的な問い合わせもそのまま利用できるとされています。

fig
fig

VISAによるHadoopの事例。5億アカウントの利用者から1日に1億トランザクションが発生し、トランザクションあたり200バイトのデータが生成されるという。過去2年間で730億ものトランザクションデータが生成されており、これを分析するのにこれまで1カ月かかっていたものが、13分になったと説明されています。

fig

JP MorganがHadoopを導入した理由について。リレーショナルデータベースは酷使されており、性能をあげるにはメモリを増やす以外にない。プロプライエタリなトランザクションデータベースへ格納されるデータは増加の一途をたどっており、しかもデータは正規化されないものもある。そして、企業向けのデータは少数のベンダー製品に囚われの身となっているも同然で、プロプライエタリなものが多すぎる。もっと選択肢が必要だとの考え。

fig

JP MorganにおけるHadoopのポジショニング。左下にはギガバイトクラスのデータを高速(Low Latency)に処理するインメモリデータベースが位置し、中央付近にはギガバイトからテラバイトのデータを処理するSQLデータベースが多数存在。その右側にはテラバイトのデータを高速に、もしくは多少の時間をかけて分析するデータウェアハウスが並び、いちばん右上には非構造化データでしかもペタバイトクラスのデータを処理するMapReduce処理系(すなわちHadoop)が位置づけられています。

fig

恋人マッチングサイトのeHarmonyの事例。大量の個人情報を基に適切なマッチングを計算するにはn人の二乗となる膨大な計算が必要。現在の10倍のメンバーに対応できる処理能力と、今後の成長に対応できるシステムを探していました。

fig

その要件にマッチしたのがHadoopであり、Amazon EC2のMapReduceサービスを利用してシステムを構築下と説明されています。

fig

データウェアハウス用のデータベース製品を提供するVertica Systemsは、Hadoopとの統合製品を発表。大規模並列のカラムナデータベースであるVertica Analytic Databaseを、Hadoopのデータリポジトリとして利用可能に。これにより、ETLツールなどを用いたデータのインポートや、分析後のデータをBIツールなどで加工しやすくなる(カラムナデータベースについては、記事「カラムナデータベース(列指向データベース)とデータベースの圧縮機能について、マイケル・ストーンブレイカー氏が語っていること」を参考)。

fig

参加者によるレポート記事

日本からHadoop World NY:2009に参加された方の記事やブログも紹介します。

日本では、このHadoop Worldを主催したCloderaも参加して11月13日にHadoop Conference Japan 2009が開催予定です(すでに定員を超えており、申し込みは締め切り済み、僕も間に合いませんでした)。その2日後の11月15日には北京で「Hadoop World:Beijin 2009」が開催される予定です。


このエントリーをはてなブックマークに追加 Bookmark this on Delicious     fig Follow Me  fig RSS

タグ : Hadoop , NoSQL , クラウド

次の記事
IBMがWebアプリケーションのUIガイドラインとHTML/CSSのソースコードを公開
前の記事
Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. 特許庁の基幹システム失敗の背景にある、日本に…
  2. 国内の開発者が使っている言語、1位C、2位V…
  3. 特許庁の基幹システムはなぜ失敗したのか。元内…
  4. 英国政府、新ポータルGov.ukをクラウド、…
  5. なぜ米ヒューレット・パッカードは、一挙に16…
  6. OpenFlowベンチャーのNicira N…
  7. ライアン・ダール氏、Node.jsの開発リー…
  8. フラッシュストレージが最大500TB! 米N…
  9. EMC、満を持してPCIe接続フラッシュスト…
  10. 2012年1月の人気記事「グーグルのバグ予測…
  11. マイクロソフトの責任者が語る「われわれはどの…
  12. 「絶対落ちないシステムを作れ」という要件に、…
  13. ソフトウェアテストの30年前と30年後(前編…
  14. ソフトウェアテストの近未来を話そう(前編)~…
  15. ソフトウェアテストの近未来を話そう(後編)~…

最新記事 10本

バックナンバー



アルファブロガー・アワード2010受賞 Publickeyはアルファブロガー・アワード 2010を受賞しました! いつもご愛読ありがとうございます。









blog comments powered by Disqus