読み方 : おんせい

音声【audio】

音声とは?

物体の振動が空気を伝わる波(音波)として人の耳に到達し、知覚される現象。人の声、動物の鳴き声、環境音、音楽、ノイズなど様々な音が含まれるが、文脈によって人の話し声のみを指す用例もある。コンピュータでは音をデジタルデータに変換して記録・伝送・再生する。
音声のイメージ画像

音波の性質は「周波数」(frequency)と「振幅」(amplitude)で決まる。周波数は1秒間の振動回数で、多いほど高い音に聞こえる。振幅は振動の大きさで、大きいほど音量が増す。人間の発声は、肺からの空気が声帯を振動させ、口や鼻の形で調整されることで言葉として形成される。人の耳が聞き取れる周波数はおよそ20Hzから20,000Hz(20kHz)の範囲とされている。

コンピュータで音声を扱うには、連続的なアナログ信号を数値の列であるデジタルデータへ変換する必要がある。この処理では、一定間隔で音の強さを測定する「サンプリング」(標本化)と、その値を数値に置き換える「量子化」が行われる。1秒あたりの測定回数(サンプリングレート)と数値の細かさ(ビット深度)が音質を左右し、いずれも高いほど原音に忠実になるが、データ量も増大する。

デジタル化された音声データは容量が大きいため、データ圧縮­技術が広く用いられる。元の波形を完全に復元できる「可逆圧縮」と、人間の聴覚では感知しにくい成分を削って容量を大幅に減らす「非可逆圧縮」があり、MP3AACなどよく知られるデータ形式は後者に属する。可逆圧縮は高音質な音楽配信サービスなどで使われ、動画に随伴する音声や通話などの用途では非可逆圧縮が用いられる。

音声は視覚を使わずに情報を伝達できるため、車の運転中など画面を見られない状況でも利用できる媒体として活用される。近年では、音声認識音声合成の技術が大きく進歩している。音声認識は収録した波形の周波数成分を解析して言語モデルと照合して文字列へ変換する技術で、スマートスピーカーや自動字幕生成に活用されている。音声合成はテキストから自然な発話音声を生成する技術で、ナビゲーションや読み上げサービスに組み込まれている。

音声の用語一覧

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。