その分析、Hadoopなら速く安くできます

2010年8月27日

ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか?

現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。

Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。

従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性などによって実現可能になっています。

fig

Hadoop化できる10の処理とは?

プレゼンテーションの中で「Clouderaはこれまで数千の顧客との対話の中で、数百のHadoopを実装」してきているとして、ここで挙げられた10の課題もそうした経験から得られたものといえます。

その10の課題とは次のようなものでした。

fig
  1. 真のリスクのモデル化
  2. 顧客離反分析
  3. レコメンデーションエンジン
  4. ターゲティング広告
  5. POSデータ分析
  6. ネットワークデータの分析による障害予測
  7. 脅威分析
  8. 取引監視
  9. サーチ品質
  10. データ“サンドボックス”

それぞれを詳しく見ていくことにしましょう。

1. 金融業などでのリスクのモデル化 

クレジットカードなど大量の分散したデータを統合し、センチメント分析、グラフ作成、パターン認識などによる構造化と分析を行う。

fig

2. 電話会社などでの顧客離反分析

顧客のモデルを迅速にテストし組み立てて分析する。

fig

3. eコマースなどでのレコメンデーションエンジン

大規模データベースに対して並列実行を実現。多数のユーザーの情報から協調フィルタリングを行う。

fig

4. ターゲティング広告

並列処理により、データ処理時間を日次から時次と短縮でき、データが増大してもサーバ増加だけで対応できる。

fig

5. POSデータ分析

Hadoopをバッチ処理のフレームワークとして利用し、販売内容のパターン分析や需要予測などができる。

fig

6. 電力会社などでの障害予測

より複雑なデータマイニングを行うことで、変動に対するネットワークの反応についての理解を深め、過去の離散的なアノマリー(異常事態)にどのような関連があるのか、ないのか、といった分析を行う。

fig

7. アンチウィルスソフト会社などでの脅威分析

大規模データに対する並列処理。脅威のような異常事態に対するパターン認識。

fig

8. 取引監視

大規模データに対する並列処理の実行で、異常な取引や有害な振る舞いを検知する。

fig

9. サーチ品質

構造化データと関連した分析的な検索の試みや、異なるカテゴリごとのユーザーの検索パターンの認識。

fig

10. データ“サンドボックス”

データの大洪水に対して、Hadoopはとにかくすべてをデータベースに集めることができて、分析可能にする。

fig

以下にプレゼンテーションを埋め込んでおきます。

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : Hadoop , MapReduce



≫次の記事
グーグル、オラクルとの係争を理由に今年のJavaOneに参加せず
≪前の記事
グーグルが構築した大規模システムの現実、そしてデザインパターン(4)~デザインパターン編

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus