読み方 : ウェーブネット
WaveNet
概要
WaveNetとは、畳み込みニューラルネットワークを用いて、特徴量抽出を介さず生の音声波形を直接生成する機械学習モデル。2016年に米グーグル(Google)社傘下のディープマインド(DeepMind)社が発表した。

音声を構成する最小単位であるサンプリング点の一つ一つを順番に予測する自己回帰モデルとなっている。過去の膨大な音声データの蓄積から、次に続く波形の形状を確率的に計算して決定する。時間方向の依存関係を捉えるために「因果畳み込み」が用いられ、未来の情報が現在の出力に影響しないよう設計されている。
因果畳み込みは拡張畳み込みを組み合わせた「拡張因果畳み込み」(dilated causal convolution)となっており、少ない層数でも長時間の文脈を扱えるようになっている。これは層を重ねるごとに受容野を指数関数的に広げる畳み込み構造で、計算負荷を抑えつつ、音声の局所的な変化から数ミリ秒単位の長期的な構造までを効率的に学習することができる。
テキスト情報だけでなく、話者の特徴を条件として与えることで、特定の人物の声色や感情のニュアンスを再現することもできる。波形サンプルを逐次生成するため計算量が大きく生成速度の遅さが課題だったが、並列生成を可能とする派生モデルや蒸留手法が開発され、リアルタイムでの音声生成も可能となった。スマートフォンの音声アシスタントやカーナビゲーションシステム、通訳アプリなど様々な用途で応用されている。