音声を文字起こししてくれる「Amazon Transcribe」、言語の種類を自動識別する新機能。人間によるタグ付けが不要に

2020年9月17日

Amazon Web Services（AWS）が提供する「Amazon Transcribe」は、音声をテキストに変換する、いわゆる文字起こしを機械が行ってくれるサービスです。

例えば、ボイスメールをテキストに変換して送信するサービスの構築や、電話での問い合わせなどを受け付けるコールセンターなどで顧客とのやり取りの記録をテキストで残すサービスの開発などに役立ちます。

AWSはこのAmazon Transcribeに、話されている言語が英語なのか日本語なのか中国語なのか、などの言語の種類を自動的に識別する機能を追加したと発表しました。

New #AWSLaunches!

New AWS Solutions Consulting Offer - Confluence Data Center Implementation
AWS & Docker extend collaboration to launch new features in Docker Desktop
Amazon Transcribe adds support for automatic language identificationhttps://t.co/pDRGmiHxK3 pic.twitter.com/rWLGquS9aX
— Amazon Web Services (@awscloud) September 16, 2020

これまでAmazon Transcribeを利用するには、その音声の言語が何語なのかを示すタグを付けた上で処理をする必要がありました。

日本ではボイスメールやコールセンターへの通話が多様な言語で行われることはあまり想定されませんが、海外では国内で複数の言語が使われている地域や、国境をまたいで複数の言語が日常的に使われるサービスなどもあり、そうした地域やサービスで音声に対してAmazon Transcribeを利用するには、複数の言語に通じた人間のチームにより音声ファイルのタグ付けによる言語種別の指定が行われていました。

今回の機能追加により、最短30秒の音声があれば人間が言語の種類を指定することなく、Amazon Transcribeが自動識別をしてテキストへ変換してくれるようになりました。

この機能は追加料金なしで利用でき、Amazon Transcribeで現在サポートされている31種類の言語すべてに対応しているとのことです。