インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達

2020年7月29日

The Apache Foundationは、オープンソースで開発している高速なデータ処理基盤「Apache Arrow 1.0.0」のリリースを発表しました

fig

Apache Arrowはメモリ上にカラムナフォーマットでデータを保持し、プロセッサのSIMD命令やGPUなどにも対応することなどにより、大量のデータを高速かつ効率的に処理する基盤です。

すでにさまざまなプログラミング言語からApache Arrowを利用するためのライブラリが用意されています。具体的には、C/C++、C#、Go、Java、JavaScript、Python、R、Ruby、Rust、MATLABなどに対応します。

ユースケースとしては、カラムナフォーマットでの高速なデータの読み書きやOLAPのようなデータ分析、PlasmaプロジェクトによるApache Arrow上での高速なメモリ共有オブジェクトストアの利用、Apache SparkやBigQuery、TensorFlow、AWS Athenaなどへのネットワーク経由でのデータ転送などが挙げられています。

バージョン1.0に到達したことで、カラムナフォーマットの安定性が前方互換性、後方互換性ともに保証されることになります。

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本