Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も

2020年1月28日

Amazon Web Services(AWS)は、データベースサービスとして提供しているAmazon RDSやAmazon Auroraのスナップショットを、Amazon S3にApache Parquetフォーマットで保存する機能が追加されたことを発表しました

fig

Parquetフォーマットは、もともとHadoop上で高速な分析を可能にする「Parquet」で用いられていたデータフォーマットです。

カラム型データベースではデータを列方向に格納することでデータの連続的な読み出し性能が高く、高速な分析が可能です(ただしトランザクション処理は遅いか、できないことが一般的です)。しかも列方向のデータは基本的にすべて同じ型であり、似たような値が並んでいる可能性も高いため、高いデータ圧縮率も期待できます。

Parquetフォーマットも、こうしたカラム型データベースの備えるデータの特徴を備えており、現在では多くのカラム型データベースのデータフォーマットとして用いられています。

AWSのサービスとしてAmazon S3上のデータに対してクエリを実行できるAmazon Athenaや複雑な分析型クエリまで実行できるAmazon Redshift Spectrumでも、このParquetフォーマットをサポートしています。

そのため、今回発表された新機能を用いてAmazon RDSやAmazon AuroraのスナップショットをAmazon S3にParquetフォーマットで保存すると、その保存したデータに対してAmazon AthenaやAmazon Redshift Spectrumでクエリを実行することができることになります。

スナップショットに対するクエリであるため、Amazon RDSやAmazon Auroraのトランザクション処理性能にはまったく影響を与えずに集計や分析が行えるため、手軽なデータ分析処理の手段として活用できるのではないでしょうか。

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本