BigQueryやRedshiftへ、ノーコードで多様なデータソースから定期データ転送、分析可能に。自動で差分更新にも対応[PR]

2020年2月5日

Google CloudのBigQueryやAmazon Redshiftといったクラウド型データウェアハウスの登場により、大量のデータを分析しビジネスに活用することが以前より手軽で低コストに実現できるようになりました。

クラウド型データウェアハウスの利点は、小さな初期投資で最初から大規模な処理能力を利用でき、事実上ほぼ無制限にデータを蓄積可能で、機械学習なども含めたさまざまな分析ツールが活用できること、などが挙げられます。

小さな初期投資で最初から大規模な処理能力が使える

こうしたクラウド型データウェアハウスを活用するには、まず大量のデータを転送し、集約する必要があります。従来のオンプレミスにおけるデータウェアハウスでは、データ転送の前にまずデータの加工や分析しやすいスキーマへの変換を行い、そのあとで転送するという手順が一般的でした。いわゆるETL(Extract、Transform、Load)処理です。

しかしクラウド型データウェアハウスにおけるデータ転送は、従来のデータウェアハウスにおけるそれとは手順が異なってきているようだと指摘するのは、CData Software Japanのゼネラルマネージャ 疋田圭介氏です。

クラウド型データウェアハウスでは、まずデータをクラウドへ転送し、そのあとでクラウドの持つ大規模なデータ処理能力を用いてデータの加工や変換処理をしたほうが効率的で、そうした傾向がお客様の間で高まってきていると疋田氏は説明します。いわばELT(Extract、Load、Transform)処理といえるでしょう。

するとクラウド型データウェアハウスにおける転送ツールは、複雑な加工処理を得意とするよりも、さまざまなクラウドサービスおよびさまざまなデータ型に対応するといった柔軟性が重視されることになります。

そしてまさに、そうしたクラウド型データウェアハウスのためのデータ転送ツールとして同社が提供するのが「CData Sync」です。

fig

CData Syncはオンプレミスもしくはクラウド上で実行できるソフトウェアとしてWindows、Linux、macOSに対応。もちろんAWS、Microsoft Azure、Google Cloudなどのクラウドでも実行可能です。

100以上のデータソースに対応、ノーコードで転送設定

特長の1つ目が、Salesforce、Marketo、NetSuite、Kintoneなどを含むさまざまなクラウドサービスをデータソースとして扱えること。

それに加えてSharePoint、GoogleAnalytics、Office 365、JSON/XMLファイル、OracleやSQL Server、MySQL、PostgreSQL、SAP HANAなど各種RDB、MongoDB、CouchDB、Cassandra、Elasticsearchなど100以上のデータソースに対応しています。

figおもなデータソース

データの転送先としても、前述のようにAmazon Redshift、Google BigQuery、Snowflakeといったクラウド型データウェアハウスだけでなく、Azure SQL Database、MongoDB、Amazon S3などを含む多くのデータストアに対応しています。

fig

CData Syncはあらかじめデータソースや転送先についてデフォルトの設定が用意されているため、Webブラウザで設定画面を開き、データソースと転送先の情報を入力し、タイマーなどを設定するだけで、データの自動転送が実行されます。

タイマーによって、例えば10分毎、3時間毎といった定期的な自動実行が可能。こうしたことがノーコード、つまり接続先パラメータの入力といくつかのマウス操作だけで設定できる簡単さが2つ目の特長といえるでしょう。

差分更新にも対応し、効率的なデータ転送を実現

データ転送の設定時には、データのマッピングなどのカスタマイズも可能ですし、特定のテーブルや特定の条件に合致するデータなど、データソースの一部だけを対象とした転送も可能です。

列名の変更や、あらかじめテーブルのジョインや集計処理をしてからデータ転送することも可能。

fig転送対象となるテーブルの追加や削除なども容易

例えば、マーケティングオートメーションツールの日付を持たないデータに対して、データウェアハウスへの転送時に日時の列を追加をすることで、あとから簡単にある時点までのマーケティング施策の進捗を抽出することができるようになるでしょう。

差分更新にももちろん対応します。前回の更新時後に作成もしくは更新されたレコードのみを更新することで、転送データ量も転送時間が最小化されます。APIのコール数で課金されるクラウドサービスについても、課金が最小化できるでしょう。

これらの操作は、データソースの種類にかかわらず(たとえJSONやXMLであっても)同じように行え、しかもSQL文でも同じように転送時のテータ加工を記述できるのがCData Syncの優れた3つ目の特徴といえます。

SQLが書けるプログラマにとっても、CData Syncは使いやすく分かりやすいツールとなっているのです。

これは同社がもともと多様なデータソースに対応したドライバの開発を得意とするところからきているもの。ドライバのレベルであらゆるデータソースに対してSQLでの操作を実現している同社独自のテクノロジーが、CData Syncでの統一的かつシンプルなデータ操作を支えています。

顧客の使い方に教えられた

実はCData Syncは登場当初、Salesforceなどクラウドサービスからデータを抽出してオンプレミスやクラウドへデータをバックアップするという使い方をアピールした製品だったと、疋田氏は振り返ります。

しかしCData Syncがバックアップツールよりも、クラウド型データウェアハウスへのバルクデータ転送ツールとして導入、活用するお客様が多くいたことで、この製品の機能を活用できる新たな分野を同社は発見することとなります。

それによってCData Syncは新たに、クラウド型データウェアハウスにおけるデータ転送ツールという、これまでにない新たなジャンルの製品として位置づけられることになったわけです。

≫CData Syncの製品ページ

関連記事

(本記事はCData Software Japan提供のタイアップ記事です)

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本