音声認識 【speech recognition】 STT / Speech-To-Text
概要
音声認識(speech recognition)とは、人の話し声を含むデジタル化された音声データを解析し、話している内容を文字データとして抽出する技術や処理のこと。コンピュータへの文字入力の方式の一種。マイクに向かって喋った内容を文字に起こし、口述筆記のように文書作成を行うシステムや、目的地などの指示を声で行えるカーナビゲーションシステム、操作の指示やネットで検索したい内容などを声で行えるスマートフォン向けのサービスやソフトウェアなどがある。
また、音声認識で指示や要求を伝え、結果をスピーカーから音声で返す専用のシステムは「スマートスピーカー」と呼ばれ、2010年代半ば頃から家庭向けの製品の普及が進んでいる。利用者が情報検索や音楽再生、計算(電卓)、予定通知(リマインダー)、タイマーなどの機能を発話による指示で実行することができる。
音声データはデータ量が多く、リアルタイムに大量の解析・変換を行うことは難しかったためなかなか実用化できなかったが、21世紀に入ってコンピュータの記憶容量や処理性能が大幅に向上し、徐々に実用的なサービスが提供されるようになった。現在でも、複数の人物が同時に喋る状況など、なかなか精度が上がらない場面もある。
一方、同じ音声から人間の声を認識する技術でも、誰が話しているかを識別する技術は「話者認識」(speaker recognition/voice recognition)という。事前に登録した人物の声のデータを元に、マイクに話しかけた人物が誰であるかを識別する。利用者認証の本人確認を声で行う「声認証」(音声認証/声紋認証/voice authentication)などに応用される。
(2020.4.19更新)