PDFやWord、Excelファイルを読み込み、レイアウトなどはそのまま内容だけを翻訳。Google Translation APIに新機能

2021年5月13日

Googleは、機械学習を用いて翻訳を行う「Translation API」の新機能として、PDF、Word、Excel、PowerPointのファイルを読み込み、レイアウトなどを保ちつつ内容だけを別の言語へ翻訳して出力する「Document Translation」を発表しました。

具体的にはPDF、DOCX、PPTX、XLSXの形式のファイルを読み込み、元のファイルのレイアウトやフォーマット、見出し、パラグラフごとの区切りなどは変更せずに内容を翻訳し、元のファイル形式のままで出力をします。

Document Translation機能は、Translation API Advancedの機能に含まれています。Translation API Advancedには既存の機能として、用語集を設定して翻訳時に反映できる「用語集」機能や、複数のドキュメントをまとめてバッチ処理できる「一括処理」機能、機械学習のモデルとしてGoogleの汎用翻訳モデルかAutoMLによるカスタムな翻訳モデルを選択できるモデル選択機能などがあり、これらを組み合わせて利用することもできます。

これまでPDFやWordファイルなどのいわゆるビジネスドキュメントを翻訳するには、内容をプレーンテキストに変換するためにコピー&ペーストを行い、翻訳を実行。出力された翻訳済みのプレーンテキストを元のビジネスドキュメントのレイアウトに戻すため、手作業でテキストをペーストして見出しなどのレイアウトを整える、などの作業が発生していました。

ファイル形式もレイアウトもそのままに変換してくれるDocument Translation機能は、こうした手間を大幅に削減してくれることでしょう。

ただし利用にはTranslation APIの呼び出しが必要なため、ファイルのドラッグ&ドロップなどの簡単な操作で行えるようにするには、そうしたアプリケーションをTranslation APIを用いて作る必要があります。今後そうしたアプリケーションの登場も期待されるでしょう。

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本