こんにちは、サーバーワークス技術2課 横倉です。
現地時間で11/30のKeynoteで発表があった新サービスの「Polly」のセッションについて簡単にまとめます。
新サービスのPollyはテキストを正確で自然な音声にするサービスです。一つ一つの音を分解しイントネーションを自然にしたり、同じつづりであっても文脈から違う発音にします。
しかも24の言語と47の男性と女声の声が現時点で利用可能です。もちろん日本語も対応しており、「Mizuki」 さんという女性の方です。
一見して地味に感じますが具体例を考えると可能性のあるサービスになると思います。
ユースケース
- 多言語のコミュニケーション
- ビデオ試作
- K-12 教育
多言語コミュニケーション、世界中の人々が集まるオリンピックやre:Inventなどの資料を多言語化する際は需要があるように思います。また、観光、マーケティング、メディアなど幅広い分野でも同様に需要があると考えれます。さらに、LexやLambdaと組み合わせる事で多言語対応の音声受付システムなども簡単につくれるかもしれません。
デモ
セッションのデモではアニメプログラムが用意されてました。アニメにした理由は自分の環境だけで簡単なリソースで用意が出来る事、会社が判りやすい資料として教育、マーケティング、HR(人事部?)などに利用できることを想定しています。 ※ 画像が悪くてすいません
アーキテクチャ
※ TTS (Text-To-Speech)
まとめ
実際のセッションでは、正確で自然な発音にするための実勢したことや、マネジメントコンソールやCLIを利用して音声ファイルを作成する方法も紹介してくれました。
本記事で、Keynoteで興味無いと思った方やPollyが良く判らないと思った方に少しでも発見があれば幸いです。
新サービスで一番シンプルだと思いますが、他サービスと連携することで可能性が広がるので少し気にかけていただけると幸いです。
Pollyの日本語音声を聞きたいと思う方もいらっしゃると思うので音声ファイルを用意しました。何を言ってるか判ったらご連絡ください。お待ちしております。
[audio mp3="http://blog.serverworks.co.jp/tech/wp-content/uploads/2016/12/speech_20161201031133155.mp3"][/audio]