Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している

2013年1月22日

Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。

fig 会場となった東京ビッグサイトの大会議室

カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。

バッチ処理を超え続くApache Hadoopの進化

Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。

今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。

fig ダグ・カッティング氏。手に持っているのはHadoopという名前の由来となったお子さんの象の人形

MapReduceはとてもポピュラーなものになりましたが、これがバブルのような盛り上がりではないかと心配されている方もいるかもしれません。しかし私はHadoopの力強い未来を確信しています。

ここではHadoopの現在とこれからについてお話したいと思います。

Hadoopはバッチシステムとしてスタートしました。シンプルでパワフル。従来のような、データをコンピュテーション(計算機)のあるところに移すのではなく、コンピュテーションの方をデータのあるところへ移動することで、非常に効率的でスケーラブルなものになっています。

fig

しかしバッチ処理だけがビッグデータを扱う方法ではありません。

HBaseは最初のノンバッチコンポーネントで、オンラインのキーバリューストアです。データへリアルタイムでランダムアクセスでき、大規模なデータでも迅速に扱えます。もちろんバッチ処理にも対応しています。

fig

HBaseは、Hadoopがバッチ処理を超えようとする最初の一歩です。

ここで究極のビッグデータ処理システムはどんなものか、考えてみましょう。それは、オープンソースソフトウェアとコモディティハードウェアで構成され、ハードウェアを追加するだけでスケールしていくものになるでしょう。

リレーショナルデータベースの機能も取り込み、SQLが使えてジョインもトランザクションも対応するかもしれません。

fig

グーグルの論文が地図を示す

これらにどうやって到達していくのでしょうか?グーグルが発表する論文が、その地図を示してくれています。

fig

2004年、GFS&Mapreduceの論文が公開されると、これに直接インスパイアされる形で2年後にHadoopが登場しました。

このパターンは続きます。2005年にバッチ処理言語Sawzallの論文が公開されると、数年後にはそれに近いPigやHiveが登場しました。2006年にBigTableの論文が公開されると、2008年にはHBaseが登場しています。

昨年、グーグルはとてもエキサイティングな論文を発表しまた。そこに書かれたSpannerは、いままでのBigDataの世界にはなかったもの、オンラインSQLクエリ、ジョイン、トランザクションなどの機能を実現しています。この論文には26人の著者がいて、5年を費やしています。

しかし私は、こうした機能もHadoopのエコシステムに加わるだろうと確信しています。

いまHadoopになにが起きているのかを見てみましょう。最近、ClouderaはImpalaを新しいオープンソースコンポーネントとしてアナウンスしました。ImpalaはDremel/F1にインスパイアされたものです。

Impalaは、オンラインでインタラクティブなSQLクエリを実現します。新しいクラスのアプリケーションをHadoopエコシステムに提供するでしょう。

fig

Hadoopはもうニッチなプラットフォームではなく、ビッグデータのための汎用プラットフォームであるといえます。Impalaは、大いなる将来に向けた次の一歩なのです。

Hadoopは安心して導入できるプラットフォームであり、将来はさらに多くのことが実現されるでしょう。

Hadoopエコシステムは世界中のみなさんのコラボレーションによって成り立っています。日本でももっと多くのユーザーが増え、エコシステムに参加してくれることを期待しています。

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : Google , Hadoop , クラウド , ビッグデータ



≫次の記事
EPUB 3、今夏以降にISO国際標準となる見通し
≪前の記事
プロジェクトリーダーに必要な6つの能力。スクラムの生みの親が語る、絶えざるイノベーションの創造(後編)

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus