Amazon Transcribe が個人情報を識別して、自動的に PII を隠蔽してくれるようになりました

記事タイトルとURLをコピーする

はじめに

こんにちは、技術一課の山中です。 毎日暖かいですね。最近もう半袖で過ごしているのですが、以前会社で半袖で過ごしていた時に、「みんな長袖なのに一人だけ半袖だと変な人に見られますよ」と言われたことを思い出しました。

本ブログでは、 Amazon Transcribe にてアップデートされた PII の自動編集機能を試していきます!

PII とは

PII とは、 Personally Identifiable Information の略で、個人を識別できる情報のことを指します。 具体的には以下のような情報のことです。

  • フルネーム
  • 住所
  • メールアドレス
  • 社会保証番号 / マイナンバー
  • パスポートの番号
  • 免許証の番号
  • クレジットカードの番号
  • 生年月日
  • 電話番号

個人のプライバシーを保護するために、音声を文字起こしする時に上記のような内容を保護することはとても重要です。 今回のアップデートで、 Amazon Transcribe が自動で PII を識別して隠蔽してくれるようになりました。

対応言語

2020/03/05 時点でこの自動編集機能に対応している言語は、米国英語のみです。

試してみる

早速試してみましょう!

1. サンプル音声データの用意

はじめに、文字起こしをする音声データを用意する必要があります。 個人情報満載の音声ファイルを日本語で作って読み込ませたのですが、英語しか対応していないことに気づき、私のつたない英語を録音しました。 内容は以下のような内容です。

Good morning, everybody.
My name is Daishi Yamanaka, and today I feel like sharing a whole lot of personal information with you. Let's start with my Social Security number 1234567890.
My credit card number is 3456789054327654 And my CVV code is 000 My bank account number is 0003212 My email address is yamanaka@sample.co.jp, and my phone number is 09012345678.
Well, I think that's it.
You know a whole lot about me. And I hope that Amazon transcribe is doing a good job at redacting that personal information away. Let's check.

大丈夫かな…

2. S3 バケットに配置

用意した音声データを S3 バケットに格納します。

3. 文字起こしのジョブ作成

文字起こし用のジョブを作成します。

ジョブ名を入力し、言語は English (United States) を選びます。

Input data には先ほど格納した音声データのパスを入力しましょう。

次のページで、 Automatic content redaction にチェックを入れます。 これを入れることで、文字起こししたテキストから個人情報を自動識別し、 [PII] に置き換えてくれます。

Include unredacted transcript in job output にチェックを入れると、 [PII] に置き換える前のテキストも出力してくれるようです。 今回はテストなので、チェックしておきましょう。

Create ボタンを押すと、ジョブが走り始めます。

ほどなくして、ステータスが Complete に変わりました!! ジョブを開くと、隠してほしい部分が [PII] に変わっていることがわかります。

Good morning. Every body.
My name is [PII]. And today I feel like shelling. Ah, hold growth off personal information with you. Yes, that with my social Security number. [PII]
It's you know my credit called Number is [PII] [PII] And my C B V cold is [PII] My bank account number is [PII] My email address is [PII] [PII] [PII] [PII] [PII] [PII] and my phone number is [PII] [PII] [PII] Sleep well.
I sing. So that's it. You know the whole world about me and I hope that I was on tricycle. Transcribe is doing a good job, but get back. Take that personal information away.
That chick

(私の英語のせいで、 PII 以外の部分も想定と異なっていますが、気にしないでください悲) また、 PII を置き換える前と置き換えたあとのテキストは Download full transcript からそれぞれダウンロードできます。

終わりに

いかがだったでしょうか? とても簡単に PII を隠すことができました!! 早く日本語に対応してくれることを祈るばかりです。

また、本ブログの内容は2020/3/5(木) 12:00よりYouTube Liveで配信される「30分でわかる AWS UPDATE!」でも取り上げる予定ですので、ぜひご覧ください! https://youtu.be/YWLB3e6fxdI

参考