読み方 : スペクトルほうらく
スペクトル包絡【spectral envelope】
概要
スペクトル包絡とは、音声信号の周波数成分を示すスペクトルの起伏をなめらかに結んだ曲線のこと。細かな倍音構造を除き、音色や音質に関わる大域的な特徴を捉える指標として用いられる。

音声信号を、含まれている周波数成分とその大きさによって図示した周波数領域で解析すると、細かく振動する微細構造と、全体的な概形を示す包絡の二つに分けられる。微細構造は声帯の振動周期に由来する基本周波数、いわゆる「声の高さ」を表すのに対し、スペクトル包絡は「あ」や「い」といった言葉の違いを形作る。
人間が発声する際、喉や口の形を変化させることで特定の周波数帯域を強調したり減衰させたりするが、このフィルタリングの効果がスペクトル包絡として現れる。特に、包絡上に現れる山のような共鳴ピークは「フォルマント」と呼ばれ、音声認識や話者識別において極めて重要な特徴量となる。
スペクトル包絡を求める方法には、線形予測分析やケプストラム分析などがある。これらの手法では、短時間の枠(フレーム)ごとにスペクトルを解析し、周期的な成分と緩やかな成分を分離することで包絡を推定する。推定された包絡は、周波数軸上の連続的な関数として扱われ、図示するとスペクトル全体を包み込む滑らかな曲線となる。
音声処理においてスペクトル包絡は音声の特徴量やモデルの入力として利用される。包絡を操作することで、話者性や母音特性を変化させることが可能となる。音声の分析と生成の双方で用いられ、音声認識では入力音声がどの音素に近いかを判断する基準として、音声合成では特定の人物の声を再現するためのデータとして、それぞれ応用される。