読み方 : モードほうかい
モード崩壊【mode collapse】
モード崩壊とは?
生成AIの学習過程で出力の多様性が失われ、似たようなデータばかりが生成されるようになる現象。生成モデル全般の課題だが、特にGAN(敵対的生成ネットワーク)で起こりやすい現象として知られている。

GANは「生成器」と「識別器」の二つのネットワークが競い合いながら学習を進める仕組みである。生成器は本物に見せかけたデータを作り出し、識別器はそれが本物か偽物かを判定する。この競合によって、生成器は次第に精度の高いデータを作れるようになる。理想的な状態では、学習データ全体の分布を反映した多様な出力が得られる。例えば、人の顔画像を学習した場合、年齢・表情・背景などが異なる様々な画像を生成できることが求められる。
ところが、学習の途中で生成器が識別器を欺きやすい一部のパターンに出力を絞り込んでしまうことがあり、これをモード崩壊という。例えば、手書きの数字を学習させていたら、途中から「1」ばかりを繰り返し出力するようになり、識別器がそれを見破ると今度は「7」に切り替えるといった状態が続く。学習は進んでいるように見えても、データ全体の特徴を再現できていない。
この状態に陥ると、生成AIの実用性は大きく損なわれる。画像・音声・テキストを問わず、出力が単調になり、利用者には不自然さや繰り返し感として伝わる。「モード」とは統計学でデータ分布の山を意味する言葉で、複数のモードを持つ現実のデータに対し、モデルがその一部しか扱えなくなることがこの名称の由来である。
対策としては、学習の安定化を図る「WGAN」(ワッサーシュタインGAN)の採用、過去の生成データを学習に再利用する手法、多様性を評価指標に組み込む手法などが提案されている。また、拡散モデルのようにモード崩壊が生じにくい生成方式の研究も進んでいる。完全な解決策はまだ確立されておらず、生成AIの開発における継続的な技術課題である。