読み方 : おんせいにんしき
音声認識【speech recognition】STT/Speech-To-Text

マイクに向かって喋った内容を文字に起こし、口述筆記のように文書作成を行うシステムや、目的地などの指示を声で行えるカーナビゲーションシステム、操作の指示やネットで検索したい内容などを声で行えるスマートフォン向けのサービスやソフトウェアなどがある。
また、音声認識で指示や要求を伝え、結果をスピーカーから音声で返す専用のシステムは「スマートスピーカー」と呼ばれ、2010年代半ば頃から家庭向けの製品の普及が進んでいる。利用者が情報検索や音楽再生、計算(電卓)、予定通知(リマインダー)、タイマーなどの機能を発話による指示で実行することができる。
音声データはデータ量が多く、リアルタイムに大量の解析・変換を行うことは難しかったためなかなか実用化できなかったが、21世紀に入ってコンピュータの記憶容量や処理性能が大幅に向上し、徐々に実用的なサービスが提供されるようになった。現在でも、複数の人物が同時に喋る状況など、なかなか精度が上がらない場面もある。
一方、同じ音声から人間の声を認識する技術でも、誰が話しているかを識別する技術は「話者認識」(speaker recognition/voice recognition)という。事前に登録した人物の声のデータを元に、マイクに話しかけた人物が誰であるかを識別する。利用者認証の本人確認を声で行う「声認証」(音声認証/声紋認証/voice authentication)などに応用される。
(2020.4.19更新)
「音声認識」の関連用語
他の用語辞典による「音声認識」の解説 (外部サイト)
- ウィキペディア「音声認識」
- imidas 時事用語事典「音声認識」
- Insider's Computer Dictionary「音声認識」
- MDN Web Docs「SpeechRecognition」
- @IT AI・機械学習の用語辞典「音声認識」
- AIZINE AI用語集「音声認識」
- コールセンターWiki「音声認識」
- デージーネット 用語集「音声認識」
- TechTerms.com (英語)「Speech Recognition」
- Gartner Information Technology Glossary (英語)「Speech Recognition」