Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している

2013年1月22日

Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。

fig 会場となった東京ビッグサイトの大会議室

カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。

バッチ処理を超え続くApache Hadoopの進化

Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。

今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。

fig ダグ・カッティング氏。手に持っているのはHadoopという名前の由来となったお子さんの象の人形

MapReduceはとてもポピュラーなものになりましたが、これがバブルのような盛り上がりではないかと心配されている方もいるかもしれません。しかし私はHadoopの力強い未来を確信しています。

ここではHadoopの現在とこれからについてお話したいと思います。

Hadoopはバッチシステムとしてスタートしました。シンプルでパワフル。従来のような、データをコンピュテーション(計算機)のあるところに移すのではなく、コンピュテーションの方をデータのあるところへ移動することで、非常に効率的でスケーラブルなものになっています。

fig

しかしバッチ処理だけがビッグデータを扱う方法ではありません。

HBaseは最初のノンバッチコンポーネントで、オンラインのキーバリューストアです。データへリアルタイムでランダムアクセスでき、大規模なデータでも迅速に扱えます。もちろんバッチ処理にも対応しています。

fig

HBaseは、Hadoopがバッチ処理を超えようとする最初の一歩です。

ここで究極のビッグデータ処理システムはどんなものか、考えてみましょう。それは、オープンソースソフトウェアとコモディティハードウェアで構成され、ハードウェアを追加するだけでスケールしていくものになるでしょう。

リレーショナルデータベースの機能も取り込み、SQLが使えてジョインもトランザクションも対応するかもしれません。

fig

グーグルの論文が地図を示す

これらにどうやって到達していくのでしょうか?グーグルが発表する論文が、その地図を示してくれています。

fig

2004年、GFS&Mapreduceの論文が公開されると、これに直接インスパイアされる形で2年後にHadoopが登場しました。

このパターンは続きます。2005年にバッチ処理言語Sawzallの論文が公開されると、数年後にはそれに近いPigやHiveが登場しました。2006年にBigTableの論文が公開されると、2008年にはHBaseが登場しています。

昨年、グーグルはとてもエキサイティングな論文を発表しまた。そこに書かれたSpannerは、いままでのBigDataの世界にはなかったもの、オンラインSQLクエリ、ジョイン、トランザクションなどの機能を実現しています。この論文には26人の著者がいて、5年を費やしています。

しかし私は、こうした機能もHadoopのエコシステムに加わるだろうと確信しています。

いまHadoopになにが起きているのかを見てみましょう。最近、ClouderaはImpalaを新しいオープンソースコンポーネントとしてアナウンスしました。ImpalaはDremel/F1にインスパイアされたものです。

Impalaは、オンラインでインタラクティブなSQLクエリを実現します。新しいクラスのアプリケーションをHadoopエコシステムに提供するでしょう。

fig

Hadoopはもうニッチなプラットフォームではなく、ビッグデータのための汎用プラットフォームであるといえます。Impalaは、大いなる将来に向けた次の一歩なのです。

Hadoopは安心して導入できるプラットフォームであり、将来はさらに多くのことが実現されるでしょう。

Hadoopエコシステムは世界中のみなさんのコラボレーションによって成り立っています。日本でももっと多くのユーザーが増え、エコシステムに参加してくれることを期待しています。

Tags: 機械学習・AI Google Hadoop ビッグデータ

このエントリーをはてなブックマークに追加
ツイート
follow us in feedly





タグクラウド

クラウド / AWS / Azure / Google Cloud
コンテナ / Docker / Kubernetes
クラウドネイティブ / サーバレス
クラウド障害 / 運用・監視

プログラミング言語 / 開発ツール
JavaScript / Java / .NET / WebAssembly
HTML/CSS / Web標準

アジャイル開発 / スクラム / DevOps / CI/CD
ソフトウェアテスト・品質
ローコード/ノーコード開発

データベース / RDB / NoSQL / 機械学習・AI
Oracle Database / MySQL / PostgreSQL
Office / 業務アプリケーション

ネットワーク / HTTP / QUIC / セキュリティ
OS / Windows / Linux / VMware
ハードウェア / サーバ / ストレージ

業界動向 / 働き方 / 給与・年収
編集後記 / 殿堂入り / おもしろ

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本