読み方 : メルしゅうはすうケプストラムけいすう
メル周波数ケプストラム係数【MFCC】Mel-Frequency Cepstral Coefficients

この係数は、短時間ごとの枠(フレーム)に分割した音声信号に対してフーリエ変換を行い、その結果を「メル尺度」と呼ばれる周波数尺度に変換する。メル尺度は、低音域の変化には敏感だが高音域の変化には鈍いという人間の耳の特性を反映した尺度である。フーリエ変換によって得られたスペクトルはメル尺度に基づく帯域に集約され、各帯域のエネルギーが計算される。
次に、帯域エネルギーに対して対数変換を施し、さらに離散コサイン変換を適用することで、メル周波数ケプストラム係数が得られる。対数変換は音の大きさに関する知覚特性を反映し、離散コサイン変換は帯域間の相関を低減し、情報を少数の係数に集約する役割を果たす。
この変換によって、スペクトルの中に含まれる「声帯の振動由来の周期性」と「声道の形状由来の包絡」が分離され、声道の共鳴特性のみを係数として取り出すことができる。こうして得られた低次の係数列がメル周波数ケプストラム係数であり、音声のスペクトル包絡を少ない次元数で精度よく表現している。
メル周波数ケプストラム係数は、マイクの特性や周囲の雑音といった環境の変化に対して比較的安定しており、計算量も少ないという利点がある。音声認識や話者識別において最も広く普及している指標の一つであり、声の高さなどの情報を抑え、音色や音韻の違いを効率的に表現することができる。