Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など

2016年7月28日

分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x(直前の最新版は1.6)でしたので、メジャーバージョンアップとなります。

Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQL(SQL 2003)への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。

また、DataFrameとDatasetは統合されたAPIとなりました。

こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフォーマンスも大きく改善されています。

Spark 2.0では前バージョンと比べて10倍の速度向上を目論んでおり、それはバージョン1.5から導入された実行エンジンのTungstenを、モダンコンパイラとMPP(大規模並列処理)の技術を用いてさらに改善することなどにより実現したとのこと。

Databricksのブログで紹介されたTPC-DSのベンチマークの比較では、Spark 2.0 は前バージョンのSpark 1.6よりも大幅な性能向上が見てとれます。

fig

関連記事

このエントリーをはてなブックマークに追加
follow us in feedly


関連タグ 機械学習・AI / Hadoop / Spark



タグクラウド(β版)

クラウド / AWS / Azure / Google Cloud
コンテナ / Docker / Kubernetes
クラウドネイティブ / サーバレス
クラウド障害 / 運用・監視

プログラミング言語 / 開発ツール
JavaScript / Java / .NET / WebAssembly
HTML/CSS / Web標準

アジャイル開発 / スクラム / DevOps / CI/CD
ソフトウェアテスト・品質
ローコード/ノーコード開発

データベース / RDB / NoSQL / 機械学習・AI
Oracle Database / MySQL / PostgreSQL
Office / 業務アプリケーション

ネットワーク / HTTP / QUIC / セキュリティ
OS / Windows / Linux / VMware
ハードウェア / サーバ / ストレージ

業界動向 / 働き方 / 給与・年収
編集後記 / 殿堂入り / おもしろ

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本