読み方 : おんせいごうせい

音声合成【speech synthesis】TTS

別名  :Text-to-Speech/音声生成

概要

音声合成とは、文字情報から人間の発話に近い音声信号を人工的に生成する技術。入力されたテキスト情報を解析し、それを音声波形へと変換することで、機械が人間のように発話することを可能にする。
音声合成のイメージ画像

この技術は一般に、言語処理と信号生成の二つの工程で構成される。まず、入力された文章を解析し、単語や音素に分解して、読みやアクセント、イントネーションなどの情報に変換する。日本語の場合は漢字と仮名の読み分け、単語境界を確定する形態素解析などを行って正しい読み方を分析する必要がある。

次に、得られた音韻や韻律情報を基に、実際の音声波形が生成される。この段階では、音声の高さや長さ、スペクトル形状などが制御され、連続した音声信号として出力される。初期の生成方式では、単純な規則や音声断片の組み合わせる「波形接続」によって合成が行われたが、機械的で不自然な音質になりやすかった。近年では、統計的手法や深層学習を用いた音声合成が主流となり、大量の音声データから発話の特徴を学習することで、話者の個性や自然な抑揚を反映した音声生成が可能になっている。

音声合成は近年飛躍的に性能が向上しており、スマートフォンの音声アシスタント、カーナビゲーション、駅の放送、視覚障害者のための読み上げソフトなど、様々な用途や場面で活用されている。また、特定の個人の声を少量のデータから再現する技術も実用レベルに達しており、音声の捏造や本人へのなりすまし、声優や歌手などの「声の所有権」を認めるべきかどうかなど、声や発話をめぐる新たな社会問題が提起されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。