音声【audio】
音声とは?

音波の性質は「周波数」(frequency)と「振幅」(amplitude)で決まる。周波数は1秒間の振動回数で、多いほど高い音に聞こえる。振幅は振動の大きさで、大きいほど音量が増す。人間の発声は、肺からの空気が声帯を振動させ、口や鼻の形で調整されることで言葉として形成される。人の耳が聞き取れる周波数はおよそ20Hzから20,000Hz(20kHz)の範囲とされている。
コンピュータで音声を扱うには、連続的なアナログ信号を数値の列であるデジタルデータへ変換する必要がある。この処理では、一定間隔で音の強さを測定する「サンプリング」(標本化)と、その値を数値に置き換える「量子化」が行われる。1秒あたりの測定回数(サンプリングレート)と数値の細かさ(ビット深度)が音質を左右し、いずれも高いほど原音に忠実になるが、データ量も増大する。
デジタル化された音声データは容量が大きいため、データ圧縮技術が広く用いられる。元の波形を完全に復元できる「可逆圧縮」と、人間の聴覚では感知しにくい成分を削って容量を大幅に減らす「非可逆圧縮」があり、MP3やAACなどよく知られるデータ形式は後者に属する。可逆圧縮は高音質な音楽配信サービスなどで使われ、動画に随伴する音声や通話などの用途では非可逆圧縮が用いられる。
音声は視覚を使わずに情報を伝達できるため、車の運転中など画面を見られない状況でも利用できる媒体として活用される。近年では、音声認識と音声合成の技術が大きく進歩している。音声認識は収録した波形の周波数成分を解析して言語モデルと照合して文字列へ変換する技術で、スマートスピーカーや自動字幕生成に活用されている。音声合成はテキストから自然な発話音声を生成する技術で、ナビゲーションや読み上げサービスに組み込まれている。