VUI 【Voice User Interface】 音声ユーザーインターフェース
概要
VUI(Voice User Interface)とは、コンピュータと人間のやり取りを声(音声)によって行う操作方式。人間がマイクに発話することで指示したり、システムからの応答を合成音声によって伝達する(あるいはその両方)方式。コンピュータやその応用製品を人間がどのような手段で操作するか、システム側から情報をどのように伝達するかを合わせて「ユーザーインターフェース」(UI:User Interface)という。現在一般的なCUI(Character User Interface)やGUI(Graphical User Interface)などの方式はいずれも、人間が装置を手指で操作し、コンピュータが画面に文字や図像を表示して応える方式を採用している。
これに対しVUIでは、機器に接続あるいは内蔵されたマイクを用いて利用者の声を入力し、音声認識を用いて発話内容を文字に置き換え、自然言語処理を行って指示内容を理解する。システムによっては応答内容も音声合成を用いて文字から声に変換し、スピーカーやイヤホンを通じて利用者に聞かせる。
近年までこのような処理をリアルタイムに行うのは技術的に困難だったが、機械学習など人工知能に関連する技術の飛躍的な進歩や半導体の性能向上により、パソコンやスマートフォンなど民生用の一般的な情報機器でも現実的なコストで実装できるようになった。応用製品として、SiriやGoogleアシスタント、Cortanaといった音声アシスタント、Google Nest、Apple HomePod、Amazon Alexaなどのスマートスピーカーなどがある。
(2021.5.13更新)