ビッグデータとは単にデータの量のことではない、データの種類や増加速度に注目せよ。ガートナー

2011年6月29日

「ビッグデータ」という言葉が最近よく使われています。Publickeyでも、企業が処理すべきデータがさまざまなログやソーシャルメディアなどから急送に生成されていることなどを指して「ビッグデータ」という言葉をこれまでに利用してきました。

Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data

ビッグデータとは「Big Data」であり、文字通り巨大なデータを意味していますが、米調査会社のガートナーはビッグデータとは単なる巨大なデータではないのだと、「Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data」（ガートナー曰く、ビッグデータへの課題は単にデータボリューム管理だけではない）で主張しています。

ボリューム、バラエティ、ベロシティ

ガートナーは、毎年少なくとも59％ずつ情報が増えており、企業のデータマネージャはボリュームだけでなく、種類とそのスピードにも目を向けなくてはならないと説明しています。

Volume: The increase in data volumes within enterprise systems is caused by transaction volumes and other traditional data types, as well as by new types of data. Too much volume is a storage issue, but too much data is also a massive analysis issue.

ボリューム：エンタープライズ内部で増加するデータには、従来のトランザクションによるものや既存のデータと同様に、新しいタイプのデータもある。大規模ボリュームはストレージに関する課題であるが、大規模データは大規模分析の課題でもある。

Variety: IT leaders have always had an issue translating large volumes of transactional information into decisions — now there are more types of information to analyze — mainly coming from social media and mobile (context-aware). Variety includes tabular data (databases), hierarchical data, documents, e-mail, metering data, video, still images, audio, stock ticker data, financial transactions and more.

バラエティ（種類）：ITリーダーはつねに、大容量のトランザクションデータを決断に活かすという課題を持っているが、いまでは分析すべき情報の種類は増えている。主なものはソーシャルメディアやモバイルからだ。データの種類には、表形式、階層型、ドキュメント、メール、計測データ、ビデオ、静止画、オーディオ、株価、決済データなどさまざまなものがある。

Velocity: This involves streams of data, structured record creation, and availability for access and delivery. Velocity means both how fast data is being produced and how fast the data must be processed to meet demand.

ベロシティ（速さ）：これにはデータのストリームも含まれているし、構造的な記録作成も、アクセスと配信の能力も含まれている。速さとは、データの生成の速さと同時に、それをどれだけ素早く処理しなければならないかという要求も含まれている。

従来の大規模データ分析は、主にリレーショナルデータベースを容れ物としていて、それをいかに高速に分析できるかが話題の中心でしたが、ビッグデータではリレーショナルデータベースにはそのままでは入らないような非構造化データや、分散処理を活用しないと実用的な範囲内では処理しきれないような大規模データが主役となってきます。

それゆえにHadoopのような大規模分散処理が得意でデータ型にとらわれない処理系や、カラム型データベースのように、データ圧縮や並列処理などが得意な処理系が注目されているのでしょう。となると、これまでデータ処理を得意としてきたエンジニアは新しい処理系に対応したスキルが望まれてくるのでしょう。