インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達

2020年7月29日

The Apache Foundationは、オープンソースで開発している高速なデータ処理基盤「Apache Arrow 1.0.0」のリリースを発表しました。

We just released @ApacheArrow 1.0.0, the first formally "stable columnar format" release with a move to SemVer for the libraries. We have a much improved website, too. Read more about what's newhttps://t.co/j24VdxqFTL
— ApacheArrow (@ApacheArrow) July 27, 2020

Apache Arrowはメモリ上にカラムナフォーマットでデータを保持し、プロセッサのSIMD命令やGPUなどにも対応することなどにより、大量のデータを高速かつ効率的に処理する基盤です。

すでにさまざまなプログラミング言語からApache Arrowを利用するためのライブラリが用意されています。具体的には、C/C++、C#、Go、Java、JavaScript、Python、R、Ruby、Rust、MATLABなどに対応します。

ユースケースとしては、カラムナフォーマットでの高速なデータの読み書きやOLAPのようなデータ分析、PlasmaプロジェクトによるApache Arrow上での高速なメモリ共有オブジェクトストアの利用、Apache SparkやBigQuery、TensorFlow、AWS Athenaなどへのネットワーク経由でのデータ転送などが挙げられています。

バージョン1.0に到達したことで、カラムナフォーマットの安定性が前方互換性、後方互換性ともに保証されることになります。

あわせて読みたい

プログラミング言語

Publickey広告

新野淳一が解説「AIと外部サービスの双方向プロトコルMCP」
AIの活用範囲を飛躍的に広げる技術として急速に普及
MCPによる「AIとアプリ／ツールの統合」が今後のトレンドに
新野淳一が解説「ソフトウェア・バージョンアップの変化」
これまでの主流はフィーチャーベースのバージョンアップ
今後の主流はユーザーが予見・計画しやすい「タイムベース」に

≫次の記事
GitHubが機能強化のロードマップを公開。今年第3四半期にはCodeQLによるコードスキャン機能の統合、第4四半期にはWeb IDEのCodespacesが正式版予定

≪前の記事
この1年で「Desktop-as-a-Service」の市場規模がほぼ2倍に、リモートワークの拡大により。米ガートナーが予測

インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達

あわせて読みたい

Publickey広告

タグクラウド

Blogger in Chief

最新記事10本