AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現

2020年11月17日

データを基に分析を行う場合、対象となるデータがきちんと整っている必要があります。

しかし多くの場合、日付データの中に日付に変換されなかった数値データが混ざっていたり、同じ会社なのに「株式会社」と「(株)」と「(株)」の表記が揺れているせいで別の会社に分類されたり、名前や住所のどこかに余計なスペースが入っていて別のデータになったり、データをインポートしたときのミスで2つの列が連結されて1つの列に入っていたりと、整っていないデータが紛れ込んでいるものです。

これらを整理しなければ、正確なデータ分析はできません。そこで、データ分析の前処理としてデータを整える、いわゆる「データクレンジング」と呼ばれる作業が行われます。

データクレンジングは一般に手間と時間がかかる作業です。どんな外れ値や未整理のデータが存在するのかはデータを見てみないと予想できないことも多いため、ときには目視でえんえんとデータを眺めることさえあるでしょう。

多数の外れ値や未整理の値を一括して変換するためのデータ操作も簡単ではありません。

そのため以前からさまざまなデータクレンジングツールが存在していました。

今回AWSが発表した「AWS Glue DataBrew」は、このデータクレンジングをビジュアルに行えるツールです。同社によれば、従来よりも80%速く作業ができるとのこと。

対象となるデータを定義したら、データの全体像を把握できます。下記は対象となるデータ全体のなかで重複している値や欠けているデータの量、全体の相関関係などが示されています。

fig1

さらに特定の列に注目し、データの総合的な品質、データの分散量(カーディナリティ)、分散の様子、ユニーク値にはどんな値があるか、などもビジュアルに表示できます。

fig2

そのうえでデータクレンジング作業を実行できます。画面上のメニューバーに並んでいるのは、よく使われるクレンジングのパターンを実行できるツール群です。これらを組み合わせて実行していけば、変換コードを記述しなくともデータクレンジング作業を進めていくことができます。

fig3

変換作業はプレビューによって適用後の状態を確認することもでき、クレンジング作業はレシピとして保存可能です。

AWS Glue DataBrewは現在、アジアパシフィック(東京)リージョンを含む、米国東部(バージニア北部)、米国東部(オハイオ州)、米国西部(オレゴン)、ヨーロッパ(アイルランド)、ヨーロッパ(フランクフルト)、アジアパシフィック(シドニー)などのリージョンで利用可能になっています。

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本