Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に

2015年9月10日

高速なビッグデータ処理基盤として注目されているApache Sparkの最新版「Apache Spark 1.5」のリリースが発表されました

Announcing Spark 1.5 | Databricks

Apache Sparkは、高いスループットを実現するバッチ処理と小さなレイテンシが求められるリアルタイム性の高い処理のいずれにも対応することを目指して開発された、大規模分散処理基盤です。

インメモリ処理や中間データなどをできるだけ生成させない効率的なスケジューラなどを備え、Scala、Java、R、Pythonなどに対応するなどが特長。

Project Tungstenによる高速化

Apache Spark 1.5の最大の特徴は「Project Tungsten」による実行エンジンの高速化です。

Apache SparkはJavaVMを用いて処理を行っていますが、JavaVMが備えるガベージコレクションやメモリ管理などの仕組みは、Apache Sparkが行う処理においては非効率なところがあり、処理速度のボトルネックになっていました。

これを解決するために「Project Tungsten」を立ち上げ、Spark自身がメモリマネージャなどを備えるようにしたのです。

To tackle both object overhead and GC’s inefficiency, we are introducing an explicit memory manager to convert most Spark operations to operate directly against binary data rather than Java objects.

オブジェクトのオーバーヘッドやガベージコレクションの非効率さを解決するため、私たちは明示的なメモリマネージャを採用し、Sparkでの処理のほとんどを、Javaオブジェクトではなく直接操作するために、入れ替えることにした。
(「Project Tungsten: Bringing Spark Closer to Bare Metal」から引用)

こうした改善で、Spark 1.4に比べてSpark 1.5では性能が大きく改善したと説明されています。

また、WebブラウザからSQLやDataFrameのクエリプランをビジュアルに参照できる機能、Spark Streamingのバックプレッシャー機能、Data Science APIの拡張などが行われています。

このエントリーをはてなブックマークに追加
follow us in feedly

タグ : Spark , ビッグデータ



≫次の記事
Herokuを任意のAmazon VPCに展開できる「Heroku Private Spaces」パブリックベータ公開。ついに東京リージョンのAmazon VPCでもHerokuが利用可能に
≪前の記事
マイクロソフト、米国外のデータセンターに保存された顧客メールの提出を命じた米当局に抵抗し控訴。Amazon、シスコらも支持

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed



Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig