Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に

2015年9月10日

高速なビッグデータ処理基盤として注目されているApache Sparkの最新版「Apache Spark 1.5」のリリースが発表されました

Announcing Spark 1.5 | Databricks

Apache Sparkは、高いスループットを実現するバッチ処理と小さなレイテンシが求められるリアルタイム性の高い処理のいずれにも対応することを目指して開発された、大規模分散処理基盤です。

インメモリ処理や中間データなどをできるだけ生成させない効率的なスケジューラなどを備え、Scala、Java、R、Pythonなどに対応するなどが特長。

Project Tungstenによる高速化

Apache Spark 1.5の最大の特徴は「Project Tungsten」による実行エンジンの高速化です。

Apache SparkはJavaVMを用いて処理を行っていますが、JavaVMが備えるガベージコレクションやメモリ管理などの仕組みは、Apache Sparkが行う処理においては非効率なところがあり、処理速度のボトルネックになっていました。

これを解決するために「Project Tungsten」を立ち上げ、Spark自身がメモリマネージャなどを備えるようにしたのです。

To tackle both object overhead and GC’s inefficiency, we are introducing an explicit memory manager to convert most Spark operations to operate directly against binary data rather than Java objects.

オブジェクトのオーバーヘッドやガベージコレクションの非効率さを解決するため、私たちは明示的なメモリマネージャを採用し、Sparkでの処理のほとんどを、Javaオブジェクトではなく直接操作するために、入れ替えることにした。
(「Project Tungsten: Bringing Spark Closer to Bare Metal」から引用)

こうした改善で、Spark 1.4に比べてSpark 1.5では性能が大きく改善したと説明されています。

また、WebブラウザからSQLやDataFrameのクエリプランをビジュアルに参照できる機能、Spark Streamingのバックプレッシャー機能、Data Science APIの拡張などが行われています。

あわせて読みたい

機械学習・AI Spark ビッグデータ




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本