クラウドとマイクロサービスによる音声操作の新時代 - Amazon Echo & Alexa

記事タイトルとURLをコピーする

こんにちは。大阪オフィスの桶谷です。 午前中に大阪から東京に移動し、AWS Summit Tokyo 2016に来ています。

元々6/3(金)だけの参加予定だったのですが、6/2(木)のDevConのKeynoteがEcho & Alexaに決まったため、予定を変更して1日前倒ししました。

ということでAWS Summit Tokyo 2016 Developers Conferenceの「クラウドとマイクロサービスによる音声操作の新時代 - Amazon Echo & Alexa」をレポートしたいと思います。

IMG_3070

冒頭

  • みんなで「Hello Alexa!」→Alexaが返事
    - なぜ音声が重要なのかをお伝えします
    - ライブコーディングもあるよ

The Evolution of UI

  • タッチの時代は過去のものになるかもしれない
    - タッチはもはや主要なインターフェーズではなくなってきている
    - モバイルデバイスを使ってスマートホームを制御できるか
      - 出来なくはないが、まだ使い勝手が悪い
      - ex) 家に帰ってスマホを出してアプリを起動して電気をつける
      - これは壁のスイッチを押す方が速い

VOICE IS THE FUTURE / VOICE WILL BE EVERYWHERE

  • 音声はどこにでも
    - 3つの特徴
      - 自然なやりとり
      - 話すだけ
      - 集中できる
    - スマートフォームは全てを繋ぐ、それを音声で制御する

What is Amazon Echo ?

  • ハンズフリーのスピーカー、音声認識
    - Amazon.comでの評価は4.5!
    - Echoの内部はどうなっているか
      - 部屋を越えて聞き取ることができる
      - 曖昧な言葉でも聞き取ることができる
      - LEDでAlexaの認識を確認
      - Muteボタン
    - 音楽を流したり天気を聞いたり

Alexaファミリーの紹介

  • Echo / Echo Dot / Tap / Fire TV
    - TapはPush to Talk
    - Fire TVは数週間前にAlexaに対応した
      - 第二世代のFire TVから

Alexaとは?

  • Cloud Service Platform
    - 全ての音声認識、自然言語の理解、マシンラーニング
    - 全てクラウドで構築されている、そのためアップデートも不要
    - 学習してパターンを学んでいく

Alexaのエコシステム

  • Alexa Skill Kit
      - APIの集合体
      - Skillの開発が可能
      - 最初は13しかSkillがなかった、API公開で1,000以上のSkillが作成された
    - Alexa Voice Service
      - Alexaをデバイスに組み込むことができる
        - Raspberry Piでも出来る
      - デバイス上で音声補足→Alexaに渡す→回答を返す
    - Alexa Everywhere
      - 全てのデバイスにAlexaを
      - 冷蔵庫、車...etc

Alexa Platform

  • AlexaはAWS上に構築されている
    - ASR(EC2):自動音声認識
    - NLU(EC2):自然言語認識
    - TTS(EC2):Text to Speach、テキストを音声に変換する
    - Skills(EC2, Lambda):スキル
    - Learning(EC2):(機械)学習

Alexaの仕組み

  • WAKE WORDで音声取り込み開始
      - Alexa or Amazon
    - ASR:認識→認識結果
    - NLU:認識結果→意図
    - Skills:意図→会話の指示
    - TTS:テキスト/SSML→Alexaの声

Alexaが利用可能なデバイス

Alexaが利用可能なアプリケーション

Alexa Skill Kit

  • デベロッパーがSkillを開発可能
    - Alexaの機能拡張が出来る
    - マイクロサービスとサーバレスアーキテクチャーを採用

Alexa Skillはサーバレスアプリケーション

  • Alexa Skillは2つの要素を持つ
      - Configuration Data(Front End)
      - Hosted Service(Back End)

ライブコーディング

  • 「Jaws」Skillを作成(Japan AWS Summit)
    - 5分程度でSkillのデプロイまで
    - developer.amazon.comのシミュレーターでの確認
    - echosim.io を使って確認

It’s still day one

  • 最初はAlexaがここまで来るとは思っていなかった
    - 未来が決まっている訳ではない
    - 自分達だけではできない、デベロッパーの皆さんと一緒に作っていきたい
    - 日本ではまだ発売されていない
    - 製品の国際化は重要、だけどこれ以上は言えない

まとめ

最新のAmazon Echo / Alexaの状況がわかるいいセッションでした。ちょうど少し前にAlexaと戯れる方法をまとめたのですが搭載デバイスが出てきているのはノーマークでした。CoWatch欲しいなぁ。
あとやはりEchoそのものは出てきませんでした。国際化の1つとしてEchoが技適に通るともっと盛り上がってくると思います。日本語対応は後でもいいかな。

「Alexa Everywhere」は凄くいい方向だと思います。Alexaを通して全てのデバイスを繋げることで新しい可能性が見えてくる、気がしました。生活もより便利になっていくと思います。

おそらく今回のSummit、最初で最後となる私のセッションレポートです。後はサーバーワークスブースにいるのでいつでも遊びに来て下さい。明日までいます。