読み方 : わしゃしきべつ
話者識別【speaker identification】話者特定
概要
話者識別とは、音声信号に含まれる話者固有の特徴を手掛かりとして、誰が発話したかを判別する技術。入力された音声信号を解析し、あらかじめ登録されている複数の候補者の中から、誰が話しているかを特定する。

音声信号から話者特性を表す特徴量を抽出して判別を行う。音声は声帯の振動や声道形状の影響を受けるため、同じ言葉を話しても話者ごとにスペクトル構造や時間的変化が異なる。これを「メル周波数ケプストラム係数」などの手法で数値化する。特徴量は音声の短時間区間ごとに算出され、話者の癖や生理的差異を反映した情報として扱われる。
識別の方法としては、登録済みの話者の中から誰の音声かを判定する「クローズドセット型」と、未知話者かどうかを含めて判定する「オープンセット型」がある。なお、似たタスクに「話者照合」があるが、話者識別は多数話者からの分類問題、話者照合は特定話者本人か否かを判断する二値判定問題である。
従来はガウス混合モデルや隠れマルコフモデルなどの統計的手法が用いられてきたが、近年ではニューラルネットワークに基づく埋め込み表現を用いた手法が主流となっている。話者識別は個人を判別する生体認証の一種(音声認証)、録音音声からの会議録の自動作成、スマートデバイスの個人最適化などに広く活用されている。