ストーンブレイカー氏が新たに立ち上げた「Tamr」は、ばらばらに存在する企業内外のデータを機械学習で自動的に整理統合

2014年5月21日

データベースの大御所として知られるマイケル・ストーンブレイカー氏。IngresやPostgresといったリレーショナルデータベースの先駆けとなる製品を開発、InformixのCTOを務め、またカラム型データベースのVerticaを創業、最近ではVoltDBを創業するなど、データベースの先端技術を商用化し続けてきました。

そのストーンブレイカー氏が共同創業者として立ち上げた企業が「Tamr」(テイマーと発音するようです)です。同社は5月19日、Google Venturesなどから1600万ドル(約16億円)の投資を受けるのと同時に、同社製品(社名と同じTamr)を発表しました

高度なデータウェアハウスをほぼ自動的に作ってくれる

Tamrとは、これまでストーンブレイカー氏が関わってきたようなリレーショナルデータベースやNoSQLデータベースとはまた違う分野の製品となっています。プレスリリースでは、次のように説明されています。

Tamr’s scalable platform for data curation lets businesses connect and enrich all their data, including internal data sources and external public data sources, as well as feeds from the Internet of Things.

Tamrのデータキュレーション向けスケーラブルプラットフォームは、データをビジネスにつなげ、より活用できるようにします。そこには社内のデータソースや社外の公開されているデータソース、そしてInternet of Thingも含まれます。

仕組みを図にしたものをTamrのWebサイトから引用しましょう。社内あるExcelシートなども含むさまざまなデータ、データベースをTamrは関連付け、整理、統合し、分析しやすくしてくれる、というもの。それを実現するために機械学習などのアルゴリズムを用い、さらに不明な点は人間にシンプルな質問として投げかけてくれます。

fig

機械学習によってTamrは使うほどに賢くなってくれるとのこと。つまり、データ分析に活用できる高度なデータウェアハウスを半自動で作ってくれるソフトウェアといえそうです。

Tamrは「野生動物の調教師」を意味する英単語「Tamer」のeを省略したものに相当します。あちこちに点在し、しかも膨れ上がっていくデータを手なずけるためのソフトウェアという意味に重ねているのではないでしょうか。

データキュレーションの自動化へ

Tamrのコンセプトを、ストーンブレイカー氏は同社のブログにポストした記事「Three Generations of Data Integration Systems」(データ統合システムの3つの世代)で解説しています。

ストーンブレイカー氏いわく、データをETLのようなバッチを中心に統合したのが第一世代のデータウェアハウス、そして第二世代のデータウェアハウスではよりデータを活用するためにデータクレンジングの機能が含まれるようになり、そこからETLはデータキュレーションツールへと拡張されることになる、と説明します。

データクレンジングとは、例えば同じ商品なのに納入元が違うために別々の商品番号がついている、スペルミスや表記の揺れによって1つの企業や人名が重複して登録されている、必要な項目が埋まっていないまま登録されている、といった状態を正していくことです。

ストーンブレイカー氏はここに2つの課題があると指摘します。1つはこのデータキュレーションはデータが大規模になるほど手間がかかるのでスケールが難しいこと、そしてもう1つは、データキュレーションはプログラマには解決できないことです。

この課題を解決するために、専門家のクラウドソーシングによるデータキュレーション機能が必要となり(実際にこうした機能は、例えばInformaticaのような製品にはすでに何年も前から搭載されています)、それを自動化するところまで推し進めようとしているのがTamrのような第三世代の製品だとしています。

データの規模や種類が増えていくにつれて、管理する人間の手間は当然ながら増えていきます。ストーンブレイカー氏はそうした課題に対する新しいアプローチをTamrで行おうとしているようです。

あわせて読みたい

データベース データウェアハウス ビッグデータ




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本