ConnectとTranscribeをTogetherしようぜ

AWS運用自動化サービス「Cloud Automator」

Amazon Connect 専任チームの丸山です。

Amazon Connect のご相談を受ける中で人気の高いご相談は Amazon Transcribe です。
電話の声をテキスト化して活用してみたいというご要望を多く頂いています。
今日は技術面ではなく、実際にTranscribeが業務で使えるのかについてお伝えします。
 
 

■Amazon Connect

AWSが提供するクラウド型コンタクトセンターのサービスです。
もうみなさん、使っていただいていますよね?
 

■Amazon Transcribe

AWSが提供する音声をテキストに変換する機能です。
2019年11月に待望の日本語対応をしました。
ただし現在日本語対応をしているのはバッチ処理のみとなります。
 

■Connect x Transcribe

Amazon Connect は通話録音がオプションではなく標準で利用可能です。
録音ファイルの容量契約もなく、低価格で信頼性の高いS3を利用します。
S3に保存した音声を利用してAmazon Transcribeでテキスト化をすることができます。
 

■通話録音にかかるコスト

録音したファイルの容量は1分あたり2Mbyteが目安になります。
例えば10万時間の会話を保存して月額500円くらいです。
 
もう少し具体的なイメージでも試算しましょう。
100名のオペレータが1日7時間x20日働き、そのうち80%の時間が「会話」に費やされていたとします。
電話対応の時間ではなく、会話の開始から終了までの時間が80%です。
通話録音のストレージ料金(S3)は1328円…安い、さすがS3。
※2020-06-17時点の価格表/1ドル110円で試算
 
Amazon Connectの利用料金およびストレージの料金を簡易試算できるサーバーワークスオリジナルのツールを提供しています。
具体的な試算にご活用ください。
 

■Transcribeの精度って実際のところどうなのかしら

ここはなかなかセンシティブな部分なので結論を申し上げにくいのですが、「個人の感想」を前提とすると
– 思いのほか認識率は高い
– ただし業務活用できるかは別問題
です。
 

■なかなかの認識率

2019年11月に登場した当初から認識率はかなりよいものと感じました。
自分の声を録音してテキスト化したらあらびっくり、ほぼ認識しているではありませんか。
人名や商品名など固有名詞には弱いものの、日本語としてかなりしっかり認識してくれて最初は感動したものです。
そう、最初は。
 

■サーバーワークスは電話をテキスト化しました

サーバーワークスではAmazon Connectを導入しています。
電話の情報はSlackに投稿する仕組みになっています。
ここにTranscribeをかけたテキストも投稿するようにしてみました。
その結果は…ブログには書きにくいこともあるので直接会ったときに聞いてください。
 

■通話録音音声のテキスト化が難しい理由

1)マイクの品質

マイクの品質は録音される音声データに強く影響します。
たとえば私が「こんにちは、サーバーワークスです」と話しました。
よい録音環境、そしてよいマイクを使うと以下のようにテキスト化されました。


あまりよい録音環境でない場合は録音された声も小さくなり以下のようにテキスト化されました。
 

2)お客様側の音の品質

お客様が最高の環境でお電話をかけてくれるとは限りません。
携帯電話からのお電話も多く、外出時であることもあります。
そうなってくると場所によっては「回線」の状況が悪く音が途切れることもあります。
また「環境音」「騒音」も音に紛れ込んできます。
音が悪くなると会話のやり取りもスムーズではなくなり、よりテキスト化が難しくなります。
 

3)一人ではない、会話

電話は「朗読」ではなく「会話」です。
1人で話していれば文末まではっきり話すことができます。
しかし会話になるとなかなか難しいものです。
お互いの声がオーバーラップしてしまうことも多々あります。
変換精度も落ちますし、どこまで誰の会話なのかを切るテクニックも必要になりました。
 

4)固有名詞の壁

サーバーワークスの場合、代表電話で利用しているため
会社名
人名
が多く出てきます。
通常のコールセンターであれば商品名なども多く出てくるでしょう。
テキスト化する際に固有名詞の変換は難しく、一方弊社の場合は固有名詞率が高いため内容が把握しづらいものとなっていました。
Amazon Transcribeには、カスタム語彙が登録可能です。
ただし最大 100 の語彙、サイズは 50 KBという制限があります。
 

■テキスト化、精度向上の希望

  • よいマイクを使う
  • 安定した回線(できれば有線LAN)を使う
  • ゆっくり、はっきりめに話をする
  • お客様と会話がかぶらないようにする
などの工夫でテキスト化の精度は向上が可能です。
 
Transcribeは日々進化をしています。
サーバーワークが導入してから約半年たちました。
最初は大喜利のようなテキストも多かったのですが、今は話の内容が把握できるテキストが増えてきました。
(あ、書きにくいといいつつ書いちゃった)
 
Transcribeは今後も精度が高まるものであると期待しています。
 

■そもそもテキスト化してどうするか

まずはAmazon Connect の PoC からはじめることをおすすめしています。
実際の環境で通話品質をお確かめいただき、運用できる機能が整っているかをご確認していただいてから
本番導入をするアプローチがスムーズです。
 
通話品質は、お客様の利用環境に大きく依存します。
わたしたちサーバーワークスはネットワーク接続環境のご相談や、ヘッドセットの選定も支援させていただきながらよりよい利用環境になるようお手伝いさせていただきます。
 
通話品質がそれなりに整ってからTranscribeです。
PoCで録音したコンタクトデータをいくつかピックアップしていただければ、Transcribeをかけてテキスト化した結果をご提供いたします。
その結果を見て、業務利用できる精度であるかをご判断いただければと思います。
 

■Connectはオープン

Amazon Connectはオープンな設計思想です。
AWSプレミアコンサルティングパートナーのサーバーワークスとしてはAWS推しではありますが、他社の音声テキスト化サービスをご利用いただくことも可能です。
他社サービスとの連携についてもご相談ください。
 

■日本語ってむずかしい

テキスト化に向き合うようになって、改めて日本語は難しい言語であると感じています。
難しい、そしてだからこそ面白いなぁ、と思います。
まだまだ、誰でも完全に認識できる精度にはどこの音声テキスト化サービスも到達できていないのではないでしょうか。
 
ただ、概要を理解したり特定の単語を判定するレベルであれば、十分業務活用が可能だと思います。
またこの先かなりのスピードで進化する分野ではないかと個人的にとても期待しています。
 
 
 
AWS運用自動化サービス「Cloud Automator」