「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

2023年7月4日

Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました

英語は新しいプログラミング言語である

Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。

英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。

fig

これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを生成したことがあるだろう。

しかしChatGPTはさまざまな言語能力を備えているが故に、大量のアンチパターンなども生成してしまう。

これを改善するには多くのプロンプトエンジニアリングが求められる。そこで、そうした作業を不要にする「English SDK for Apache Spark」を発表する。

fig

Sparkのエキスパートによってプロンプトエンジニアリングが実行され、アンチパターンが最小化されている。

デモを見ていただこう。

英語の指示でデータの集計からグラフ化まで

Sparkでのデータ分析のために、Apache Sparkへのコミュニティからの貢献数をGitHubのプルリクエストデータから取得する。

GitHubのAPIからPythonのコードでデータを取得し、AparkのDataframeとする。

fig

このデータを基に、1日ごとのプルリクエスト数と7日間の移動平均などを求めるために、AggrigationやWindows関数などを使おう。

ただ、詳しい使い方まで覚えていないので公式ドキュメントやStack Overflowなどを検索することになる。

fig

やりたいことは言葉(英語)で言えるのに、それをコードとして記述するのは時間がかかるのだ。

言葉がそのまま実行できればいいのに。そこで「English SDK for Apache Spark」だ。

使い方は簡単。まず、Spark_aiクラスを初期化、有効化。これですべてのDataframeがAIのパワーを得られる。

fig

あとは英語での指示を書き込む。「Add a column 'date' derived from 'created_ai'」(Dateカラムを追加)、「Add a column 'num_pr_created' that aggregates the number of created PRs by date.」(日次でプルリクエスト数を合計)、「Add column '7_day_avg' that computes the 7 day moving average of the number of PRs created.」(そして7日間移動平均を追加)。

fig

これで結果が得られた。

fig

これをグラフ化。

fig
fig

このデータに、Sparkのメジャーバージョンアップの時期を重ねるため、バージョン番号が「x.0.0」で示されるメジャーリリースの日付のデータを英語で指示して取得。

fig
fig

2つのグラフを重ねるために「show the 7 day moving average and annotate the spark version with a red line」(7日移動平均と、バージョン毎の赤線を引く)という指示を出す。

fig

すると、目的のグラフが表示された。

fig

あわせて読みたい

機械学習・AI 開発ツール Spark




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本