Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に

2015年9月10日

高速なビッグデータ処理基盤として注目されているApache Sparkの最新版「Apache Spark 1.5」のリリースが発表されました

Announcing Spark 1.5 | Databricks

Apache Sparkは、高いスループットを実現するバッチ処理と小さなレイテンシが求められるリアルタイム性の高い処理のいずれにも対応することを目指して開発された、大規模分散処理基盤です。

インメモリ処理や中間データなどをできるだけ生成させない効率的なスケジューラなどを備え、Scala、Java、R、Pythonなどに対応するなどが特長。

Project Tungstenによる高速化

Apache Spark 1.5の最大の特徴は「Project Tungsten」による実行エンジンの高速化です。

Apache SparkはJavaVMを用いて処理を行っていますが、JavaVMが備えるガベージコレクションやメモリ管理などの仕組みは、Apache Sparkが行う処理においては非効率なところがあり、処理速度のボトルネックになっていました。

これを解決するために「Project Tungsten」を立ち上げ、Spark自身がメモリマネージャなどを備えるようにしたのです。

To tackle both object overhead and GC’s inefficiency, we are introducing an explicit memory manager to convert most Spark operations to operate directly against binary data rather than Java objects.

オブジェクトのオーバーヘッドやガベージコレクションの非効率さを解決するため、私たちは明示的なメモリマネージャを採用し、Sparkでの処理のほとんどを、Javaオブジェクトではなく直接操作するために、入れ替えることにした。
(「Project Tungsten: Bringing Spark Closer to Bare Metal」から引用)

こうした改善で、Spark 1.4に比べてSpark 1.5では性能が大きく改善したと説明されています。

また、WebブラウザからSQLやDataFrameのクエリプランをビジュアルに参照できる機能、Spark Streamingのバックプレッシャー機能、Data Science APIの拡張などが行われています。

Tags: 機械学習・AI Spark ビッグデータ

このエントリーをはてなブックマークに追加
ツイート
follow us in feedly





タグクラウド

クラウド / AWS / Azure / Google Cloud
コンテナ / Docker / Kubernetes
クラウドネイティブ / サーバレス
クラウド障害 / 運用・監視

プログラミング言語 / 開発ツール
JavaScript / Java / .NET / WebAssembly
HTML/CSS / Web標準

アジャイル開発 / スクラム / DevOps / CI/CD
ソフトウェアテスト・品質
ローコード/ノーコード開発

データベース / RDB / NoSQL / 機械学習・AI
Oracle Database / MySQL / PostgreSQL
Office / 業務アプリケーション

ネットワーク / HTTP / QUIC / セキュリティ
OS / Windows / Linux / VMware
ハードウェア / サーバ / ストレージ

業界動向 / 働き方 / 給与・年収
編集後記 / 殿堂入り / おもしろ

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本