GoogleがClouderaらと共同で「Google Cloud Dataflow」のオープンソース化提案。Apache Incubatorプロジェクトとして

2016年1月21日

Googleがクラウドで提供している「Google Cloud Dataflow」は、エクサバイトスケールもの大規模なデータ処理に対応したフルマネージドのサービス。

最大の特徴は、リアルタイム処理とバッチ処理のどちらも同一のプログラミングモデルを採用していることで、開発が容易になっている点にあります。

fig昨年8月に正式サービス化が発表されたときの資料から。左側のバッチ処理、ストリーミング処理がどちらでもDataflowが対応できることを示している

このGoogle Cloud Dataflowのソースコードを、Apache Software FoundationのIncubatorプロジェクトとして提供する提案を、GoogleがCloudera、data Artisans、Talend、Caskらと共同で行っていることが発表されました

Dataflowを用いることで、Dataflowという1つのプログラミングモデルでApache SparkやApache Flinkなど複数の処理基盤に対応し、しかもバッチとストリーミングの両方にも対応した処理が書けるというメリットが生まれるとのことです。

With Dataflow, you can write one portable data pipeline, which can be used for either batch or stream, and executed in a number of runtimes including Flink, Spark, Google Cloud Dataflow or the local direct pipeline.

Dataflowによって、1つのポータブルなパイプラインを書くことができる。それはバッチとストリームのどちらの処理にも使え、さらにFlink、Spark、Google Cloud Dataflowやローカルなパイプラインなどの多数のランタイムで実行できる。
Dataflow and open source - proposal to join the Apache Incubator」から引用

これにより以下のメリットがあると説明されています

Pipeline first, runtime second
DataflowモデルとSDKにより、何で実行するかではなくデータパイプラインの定義にフォーカスできる

Portability
データパイプラインはさまざまな実行エンジンに対してポータブルであり、実行エンジンを性能やスケーラビリティなどから選択できる

Unified model
バッチとストリーミングが、ウィンドウイング、オーダリング、トリガリングなどを含む1つの強力なセマンティックを持つモデルで統合されている

Development tooling
Dataflow SDKにはポータブルなデータパイプラインを迅速かつ容易に開発できるオープンソースの言語、ライブラリ、ツールなどが含まれている(訳注:Dataflow SDKはすでにGoogleがオープンソース化済み)

Apache Software Foundationへの提案は「DataflowProposal」として公開されています。

あわせて読みたい

機械学習・AI Google オープンソース ビッグデータ




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本