【図解】SiriやAlexaの仕組み、音声対話システムをわかりやすく解説。自然言語処理(NLP)

Last updated:

すえつぐ

こんにちは!自然言語処理(NLP)・大規模言語モデル(LLM)の解説記事や書籍を書いている、 すえつぐです!
(著書、 『誰でもわかる大規模言語モデル入門』 が11月23日に出版予定。Amazonにて予約受付中)

今回は主にSiriやAlexaに使用されている、音声対話システムについて解説していきます。

音声対話システムは簡単に説明すると、「音声入力を理解して、適切なタスクを行うシステム」です。

例えば、SiriやAlexaに話かける時をイメージしてみてください。

「Alexa、明日の天気は?」

「Hey Siri、嵐の曲を流して」

など、天気を聞いたり、曲を流したり、さまざまなことをすることができますよね。

この「明日の天気は?」や「嵐の曲を流して」など、音声入力を処理するために使用されている技術が音声対話システムです。

今回の記事で解説すること

そして近年、SiriやAlexaなどが普及し始め、音声対話システムの需要が高まっています。一方で、音声対話システムに関する情報は日本語サイトではあまりありません。

そこで、今回は音声対話システムについてわかりやすく、網羅的に解説していきます。

具体的には、「なぜ音声対話システムを学ぶ必要性は?音声対話システムの将来性の高さ」「音声対話システムの仕組み」についてわかりやすく解説していきます!

音声対話システムを学ぶ必要性は?音声対話システムの将来性の高さ

今回紹介する、音声対話システムはなぜ学ぶ必要があるのでしょうか?

この答えは、一言で言うと「需要の増加」です。近年、特に海外では音声対話システムを使った、AlexaやSiriなどの音声アシスタントの普及が進んでいます。
さらに、これからはAR・VRやIoTでも音声入力が使用されるため、ますます需要が高まっていくと予想されています。

日本でも、アーリーアダプターの方々にはAlexaや、Alexaを使ったIoT(電球、電子鍵、ルンバなど)が普及し始めています。

急速な需要の増加

実際に、音声対話システム関連のデータを見ていきましょう。

最新の調査結果によると、

  • 2022年春の時点で、成人アメリカ人の三人に一人以上(35%)が音声アシスタントを所有している。 2017年の16%から2倍以上に増加している。(National Public Media, 2020)
  • 特に音声ショッピングは増加傾向にあり、2018年の売上は18億ドルに達した。(Hayllar & Coode, 2018)
  • 中国では、アリババの24hの11.11ショッピングフェスティバルで、アリババGenieの音声ショッピング機能を通じて100万件以上の注文と決済が行われた(Li, 2019, p.11)。

このように、アメリカ、中国などでは音声アシスタントが着実に普及し始めていること、特にEコマースで大きな売り上げをあげていることがわかります。

これからも、音声対話システムを使ったデバイスは普及していくと言われており、更にこの技術の需要も高まっていくでしょう。

Source:https://fivedottwelve.com/blog/what-is-voice-commerce-and-how-do-we-use-it-in-2022/

今、音声対話システムを学ぶ価値

これまで解説してように、音声対話システム関連の技術の需要は高まっていくことが予想されています。

今、データサイエンスやNLPを学んでいて「何か自分の特化した分野が欲しい」と思っている人には、将来性の高い音声対話システムは良い選択肢だと言えるでしょう。(実際、データサイエンスを学び始める人たちは増えており、他の人たちとの差別化が重要になってきています。)

ここまでで、音声対話システムの将来性の高さと学ぶ必要性を感じていただけたでしょうか?

次の章では実際に、音声対話システムの仕組みについて解説していきます!

音声対話システムの仕組み

イラストのように、音声対話システムは主に以下の4つのステップで構成されています。

  1. 音声入力
    「Alexa、明日の天気は?」「あいみょんの曲を流して」
  2. 音声認識(ASR)
    入力された音声を文章に変換する
  3. 言語理解(NLU)
    変換された文章から、「ユーザーが何をしたいか?」を理解する
  4. アクション
    天気の表示、返答など

1〜4をまとめて音声対話システム、2、3がSLU(音声言語理解)と呼ばれます。

SLUとはSLUはSpoken Language Understandingの略で、特に「人の声による入力を理解する」技術です。この技術が音声対話システムで「ユーザーが何をしたいか?」を理解する、核となる技術です。

音声対話システムにおける技術の進化

ここまでは音声対話システムを使ったデバイス(Alexa, Siriなど)が普及してきていることを解説しました。ここからは、音声対話システムの技術発展について解説していきます。

結論から言うと、音声対話システムの技術は、近年急激に発展しています。

音声対話システムに使用する技術、音声認識(ASR)と言語理解(NLU)の性能は、ここ数年でかなり向上しました。

  • 音声認識(ASR)の性能向上
    音声認識のエラー率は約1〜2%程度まで向上した。人間のエラー率は4%程度と言われており、人間以上の精度まで向上しています。(ソース
  • 言語理解(NLU)の性能向上
    NLUの性能は「意図の理解」と「スロットフィリング」と言う二つの指標があります。それぞれ98%以上の精度を出しています。(ソース

このように、近年の性能向上は著しく、更に音声対話システムがより複雑なタスクを実行する研究も行われています。

現在は「音楽を流して」や「電気を消して」など単純なタスクが多いのが現状ですが、これからはもっと複雑な命令もできるようになっていくでしょう。

近年の技術革新について

近年の音声アシスタント関係の性能は、2018年ごろから急激に改善されました。これは主に2018年に開発されたBERTの影響が大きいと言われています。(BERTはNLPの革新的なモデルです)

実際に、音声認識でも言語理解でもBERTベースのモデルが高精度を出しています。音声認識はw2v-BERT XXL、Stack-Propagation(+BERT)が2022年時点で最高性能を誇っています。

音声対話システムを学ぶには

書籍で学ぶ

基礎的なことを学ぶにはこの本がおすすめです。基礎から実践まで網羅的に説明されています。

このサイトで学ぶ

ここまで読んでいただきお疲れ様でした&ありがとうございました!

これからも理論から技術的なところまで、わかりやすい、タメになる解説記事をアップしていく予定です。

データサイエンス・NLPを継続的に学んでいきたいと思っている方は、是非ツイッターのフォローお願いします。またお気に入り登録もよろしくお願いいたします。
(NLP関係で解説してほしい記事があったら是非DMしてください)