読み方：おんせいにんしき

音声認識【speech recognition】STT/Speech-To-Text

概要

音声認識とは、人の話し声を含むデジタル化された音声データを解析し、話している内容を文字データとして抽出する技術や処理のこと。コンピュータへの文字入力の方式の一種。

マイクに向かって喋った内容を文字に起こし、口述筆記のように文書作成を行うシステムや、目的地などの指示を声で行えるカーナビゲーションシステム、操作の指示やネットで検索したい内容などを声で行えるスマートフォン向けのサービスやソフトウェアなどがある。

また、音声認識で指示や要求を伝え、結果をスピーカーから音声で返す専用のシステムは「スマートスピーカー」と呼ばれ、2010年代半ば頃から家庭向けの製品の普及が進んでいる。利用者が情報検索や音楽再生、計算（電卓）、予定通知（リマインダー）、タイマーなどの機能を発話による指示で実行することができる。

音声データはデータ量が多く、リアルタイムに大量の解析・変換を行うことは難しかったためなかなか実用化できなかったが、21世紀に入ってコンピュータの記憶容量や処理性能が大幅に向上し、徐々に実用的なサービスが提供されるようになった。現在でも、複数の人物が同時に喋る状況など、なかなか精度が上がらない場面もある。

一方、同じ音声から人間の声を認識する技術でも、誰が話しているかを識別する技術は「話者認識」（speaker recognition/voice recognition）という。事前に登録した人物の声のデータを元に、マイクに話しかけた人物が誰であるかを識別する。利用者認証の本人確認を声で行う「声認証」（音声認証/声紋認証/voice authentication）などに応用される。

(2020.4.19更新)