音声認識 【speech recognition】 STT / Speech-To-Text

概要

音声認識(speech recognition)とは、人の話し声を含むデジタル化された音声データを解析し、話している内容を文字データとして抽出する技術や処理のこと。コンピュータへの文字入力の方式の一種。

マイクに向かって喋った内容を文字に起こし、口述筆記のように文書作成をシステムや、目的地などの指示を声でえるカーナビゲーションシステム、操作の指示やネット検索したい内容などを声でえるスマートフォン向けのサービスソフトウェアなどがある。

また、音声認識で指示や要求を伝え、結果をスピーカーから音声で返す専用のシステムは「スマートスピーカー」と呼ばれ、2010年代半ば頃から家庭向けの製品の普及が進んでいる。利用者が情報検索や音楽再生、計算(電卓)、予定通知リマインダー)、タイマーなどの機能を発話による指示で実行することができる。

音声データデータ量が多く、リアルタイムに大量の解析・変換をうことは難しかったためなかなか実用化できなかったが、21世紀に入ってコンピュータの記憶容量や処理性能が大幅に向上し、徐々に実用的なサービスが提供されるようになった。現在でも、複数の人物が同時に喋る状況など、なかなか精度が上がらない場面もある。

一方、同じ音声から人間の声を認識する技術でも、誰が話しているかを識別する技術は「話者認識」(speaker recognition/voice recognition)という。事前に登録した人物の声のデータを元に、マイクに話しかけた人物が誰であるかを識別する。利用者認証の本人確認を声でう「声認証」(音声認証/声紋認証/voice authentication)などに応用される。

(2020.4.19更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる