読み方 : メルしゅうはすうケプストラムけいすう

メル周波数ケプストラム係数【MFCC】Mel-Frequency Cepstral Coefficients

概要

メル周波数ケプストラム係数とは、人間の聴覚特性を考慮して音声信号から抽出された特徴量のこと。周波数情報を要約した数値列として、音声認識話者識別などで広く利用されている。
メル周波数ケプストラム係数のイメージ画像

この係数は、短時間ごとの枠(フレーム)に分割した音声信号に対してフーリエ変換を行い、その結果を「メル尺度」と呼ばれる周波数尺度に変換する。メル尺度は、低音域の変化には敏感だが高音域の変化には鈍いという人間の耳の特性を反映した尺度である。フーリエ変換によって得られたスペクトルメル尺度に基づく帯域に集約され、各帯域のエネルギーが計算される。

次に、帯域エネルギーに対して対数変換を施し、さらに離散コサイン変換を適用することで、メル周波数ケプストラム係数が得られる。対数変換は音の大きさに関する知覚特性を反映し、離散コサイン変換は帯域間の相関を低減し、情報を少数の係数に集約する役割を果たす。

この変換によって、スペクトルの中に含まれる「声帯の振動由来の周期性」と「声道の形状由来の包絡」が分離され、声道の共鳴特性のみを係数として取り出すことができる。こうして得られた低次の係数列がメル周波数ケプストラム係数であり、音声のスペクトル包絡を少ない次元数で精度よく表現している。

メル周波数ケプストラム係数は、マイクの特性や周囲の雑音といった環境の変化に対して比較的安定しており、計算量も少ないという利点がある。音声認識話者識別において最も広く普及している指標の一つであり、声の高さなどの情報を抑え、音色や音韻の違いを効率的に表現することができる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。