Amazon PollyのSSMLを使ったらどれくらい自然な日本語になるか試してみた

記事タイトルとURLをコピーする

CI部5課の山﨑です。

Amazon Connectの問い合わせフローのブロックには「プロンプトの再生」というブロックがあります。その中にはAmazon Pollyが記述したテキストを音声読み上げしてくれるTTS(Text To Speech)という機能があるのですが、イントネーションやアクセントの違いにより不自然な日本語が読み上げられることが多々あります。そこで今回はAmazon PollyのSSML(音声合成マークアップ言語)を使い、文章をどれだけ自然な日本語に近づけることができるのかを試してみました。

Amazon PollyとSSMLについて

Amazon PollyとSSMLについては弊社ブログ「Amazon Polly はじめての SSML入門」にて紹介がありますのでこちらをご覧ください。Amazon Pollyはコンソール画面から簡単に試すことができます。

SSMLの使用前後で音声を聴き比べてみる

【SSML使用前】

<speak>
お電話ありがとうございます。こちらは株式会社サーバーワークスのお客様相談窓口でございます。
</speak>

[audio mp3="http://blog.serverworks.co.jp/tech/wp-content/uploads/2020/06/speech_before.mp3"][/audio]

株式会社(かぶしきがいしゃ)が「かぶしきかいしゃ」と読まれているためとても違和感があります。

【SSML使用後】

<speak>
<amazon:effect phonation="soft">
お電話ありがとう<phoneme alphabet="x-amazon-pron-kana" ph="'ゴザイマス">ございます</phoneme>。
<amazon:breath duration="medium" volume="medium"/>こちらは<break time="1ms"/>株式会社(かぶしきがいしゃ)<break time="1ms"/>サーバーワークスの<break time="1ms"/>
お客様<phoneme alphabet="x-amazon-pron-kana" ph="ソウダ'ンマド'グチ">相談窓口</phoneme>で<phoneme alphabet="x-amazon-pron-kana" ph="'ゴザイマス">ございます</phoneme>。
</amazon:effect>
</speak> 

[audio mp3="http://blog.serverworks.co.jp/tech/wp-content/uploads/2020/06/speech_after.mp3"][/audio]

SSML使用前よりも柔らかい音声で自然な音声になりました。

Amazon Connectへの適用

Amazon ConnectでSSMLを利用するためには、「プロンプトの再生」のブロックで「解釈する」という箇所を「SSML」にすることで適用することができます。

今回利用したSSMLタグ

amazon:effect phonation 柔らかい音声

通常の音声よりも柔らかく発声させることができます

<amazon:effect phonation="soft">text</amazon:effect>

break 一時停止の追加

テキスト間にbreakタグを記述することで、読み上げを一時停止させることができます。読み上げる単語に発声の区切りをつけたい時に便利です。

text<break time="3s"/>text

phoneme 発音記号を使用する

phonemeタグを利用すると、Amazon Pollyにデフォルトで関連付けられた発音ではなくてph属性で指定された発音で発声させることができます。

<phoneme alphabet="x-amazon-pron-kana" ph="マイニチシ'ンブン">毎日新聞</phoneme>を読む
# アポストロフィは、ピッチの下がるアクセント拍を示しています。

breath 呼吸音の追加

音声に呼吸音(息つぎ)を追加することで、より自然な発声に近づけることができます。

<amazon:breath duration="medium" volume="medium"/>こちらは

まとめ

ということで今回はAmazon PollyのSSML(音声合成マークアップ言語)を使い、文章をどれだけ自然な日本語に近づけることができるのかを試してみました。他にも様々なタグがあり、全てを試した訳ではありませんが、工夫次第で自然な日本語を発声させることができると分かりました。