PDFやWord、Excelファイルを読み込み、レイアウトなどはそのまま内容だけを翻訳。Google Translation APIに新機能

2021年5月13日

Googleは、機械学習を用いて翻訳を行う「Translation API」の新機能として、PDF、Word、Excel、PowerPointのファイルを読み込み、レイアウトなどを保ちつつ内容だけを別の言語へ翻訳して出力する「Document Translation」を発表しました。

具体的にはPDF、DOCX、PPTX、XLSXの形式のファイルを読み込み、元のファイルのレイアウトやフォーマット、見出し、パラグラフごとの区切りなどは変更せずに内容を翻訳し、元のファイル形式のままで出力をします。

Document Translation機能は、Translation API Advancedの機能に含まれています。Translation API Advancedには既存の機能として、用語集を設定して翻訳時に反映できる「用語集」機能や、複数のドキュメントをまとめてバッチ処理できる「一括処理」機能、機械学習のモデルとしてGoogleの汎用翻訳モデルかAutoMLによるカスタムな翻訳モデルを選択できるモデル選択機能などがあり、これらを組み合わせて利用することもできます。

これまでPDFやWordファイルなどのいわゆるビジネスドキュメントを翻訳するには、内容をプレーンテキストに変換するためにコピー&ペーストを行い、翻訳を実行。出力された翻訳済みのプレーンテキストを元のビジネスドキュメントのレイアウトに戻すため、手作業でテキストをペーストして見出しなどのレイアウトを整える、などの作業が発生していました。

ファイル形式もレイアウトもそのままに変換してくれるDocument Translation機能は、こうした手間を大幅に削減してくれることでしょう。

ただし利用にはTranslation APIの呼び出しが必要なため、ファイルのドラッグ&ドロップなどの簡単な操作で行えるようにするには、そうしたアプリケーションをTranslation APIを用いて作る必要があります。今後そうしたアプリケーションの登場も期待されるでしょう。

あわせて読みたい

Google Cloud クラウド 機械学習・AI Google




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本