Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)

2009年11月4日

Welcome to Apache Hadoop!

Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェアです。開発が始まったのは2005年頃で、当時Yahoo!に所属し現在はClouderaに所属するDoug Cutting氏が中心となって進めてきました。

Hadoopが実現するMapReduce処理とは、簡単にいえば大量のデータを小さく分割して多数のノードに割り当て(Map処理)、各ノードで処理を行ったらそれを集約して結果を出す(Reduce処理)、という分散処理の方法です。数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分散処理する方法として注目を集めています。

ニューヨークでHadoop Worldが開催される

そのHadoopのカンファレンス「Hadoop World:NY 2009」が10月2日にニューヨークで開催されました。主催は、Hadoopの商用ディストリビューションを提供しているClouderaです。

カンファレンスで行われたセッションのプレゼンテーションはほとんどすべて公開されており、Hadoopの最新動向を知る貴重な資料となっています。

この記事では、そのHadoop Worldのプレゼンテーションに全部目を通して興味深い部分を集めたので紹介します。前編の今回は、午前中のゼネラルセッションの資料から。

fig

主催社Clouderaは、まずHadoopの歴史を振り返ります。2004年にHadoopの基となるMapReduceの論文がグーグルから公開。2005年にプロトタイプ、2006年に20ノードで稼働。

fig

その後、2006年にYahoo!が本格的に注力を始め、2007年に200ノードで稼働、2008年には大規模なソート処理のTerasortベンチマークで新記録を達成しています。

fig

Clouderaは、オープンソースコミュニティや企業が公開するHadoop関連のソフトウェアや自社開発のソフトウェアをまとめてパッケージングし、Hadoopのディストリビューションを提供する企業。

fig

ビジネスモデルは、ディストリビューションパッケージを、UbuntuやRed hatなどのパッケージベンダや、Amazon Web ServicesやRackspaceなどのクラウドベンダへライセンスすることのようです。

fig

Yahoo!はHadoopにおいて最大の貢献とテスト、利用を誇り、今後も積極的な支援を約束しています。

fig

Yahoo!はHadoopを利用することで、調査期間が数カ月から即日に短縮、その結果プロジェクトは調査中心から結果を出すことに注力でき、また操作法も簡単に学べるというメリットを得られている(ただしこれは皮肉になっている可能性あり)。

fig

そして以前は26日もかかっていた過去3年分のログデータの分析が、Hadoop導入によってわずか20分になり、分析アプリケーションの開発もC++からPythonに変わり、2~3週間から2~3日に短縮。

fig

Yahoo!が現在開発中のHadoop関連プロジェクトとして、Hadoop本体のほか、PIG、Oozieなどについても説明。

fig

Hadoopの大規模ユーザーの1社であるFacebookは、Hadoopの利点を性能の低いサーバを集めることで非常に高い可用性とスケーラビリティ、管理のしやすさなどとする一方で、Hadoop処理のプログラミングの困難さを挙げています。そして、その解決策として「Hive」があると。

fig

HiveはSQLに似たHiveQLという問い合わせ言語でHadoopの処理を記述することができます。HiveQLを用いると、下記のスライドのように簡潔な文で複雑な処理が記述できるのです。HiveはFacebookが開発し、その後オープンソースとなっています。

fig

Facebookは現在4TBのデータが毎日生成され、135TBのデータを毎日処理しているとのこと。そのために7500以上のHiveによる処理が毎日行われています。

fig

ビデオも一部が公開されています。以下は、ゼネラルセッションの最初に行われた、ClouderaのChristophe Bisciglia氏による「elcome to Hadoop World」、約10分間のビデオです。

Welcome to Hadoop World - Christophe Bisciglia from Cloudera on Vimeo.

ここまでが午前のセッション資料でした。午後のセッション資料の紹介も、興味深い部分を集めて後編で紹介します

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : Hadoop , クラウド



≫次の記事
Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(後編)
≪前の記事
「データセンターは発電所のようなもの」ニコラス・カー氏がグーグルにてクラウドを語る

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus