大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース。メモリコンフィグレーションの自動化、静的型付けのDataset API、速度の向上も実現

2016年1月6日

高速な大規模分散処理のフレームワーク「Apache Spark」の新版となる「Apache Spark 1.6」正式版のリリースが発表されました

Announcing Spark 1.6 | Databricks Blog

Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒あたり290万行の読み込み速度だったものを1秒あたり450万行まで、約50%改善したと説明されています。

また、1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ用のメモリ領域の大きさを、新しいメモリマネージャの導入によって自動的に最適化できるように改善。手動での最適化を不要にし、実行速度の向上に貢献しました。

昨年導入された「DataFrame」とJavaVMのオーバーヘッドを改善する実行エンジンの「Project Tungsten」は、Sparkの実行速度の改善に寄与しました。Spark 1.6ではDataFrameを拡張したDataset APIが追加されました。Dataset APIでは、コンパイル時にデータの静的型付けチェックをすることで、ScalaやJavaの実行速度を向上させることが可能になっています。

Tags: 機械学習・AI Hadoop Spark ビッグデータ

このエントリーをはてなブックマークに追加
ツイート
follow us in feedly




タグクラウド(β版)

クラウド / AWS / Azure / Google Cloud
コンテナ / Docker / Kubernetes
クラウドネイティブ / サーバレス
クラウド障害 / 運用・監視

プログラミング言語 / 開発ツール
JavaScript / Java / .NET / WebAssembly
HTML/CSS / Web標準

アジャイル開発 / スクラム / DevOps / CI/CD
ソフトウェアテスト・品質
ローコード/ノーコード開発

データベース / RDB / NoSQL / 機械学習・AI
Oracle Database / MySQL / PostgreSQL
Office / 業務アプリケーション

ネットワーク / HTTP / QUIC / セキュリティ
OS / Windows / Linux / VMware
ハードウェア / サーバ / ストレージ

業界動向 / 働き方 / 給与・年収
編集後記 / 殿堂入り / おもしろ

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本