読み方 : かくさんモデル
拡散モデル【diffusion model】
概要

ノイズを加える順方向過程と、ノイズを取り除く逆方向過程の二段階に分けられる。順方向では、学習元の画像に対して微小なノイズを繰り返し加えていき、最終的に全体が完全に無秩序なノイズへ変化する。モデルはこの各ステップにおいて「どの程度のノイズが加えられたか」を予測するように訓練される。生成過程となる逆方向では、何もないノイズの状態から、学習した知識を用いてノイズを一段階ずつ緻密に取り除いていくことで、鮮明な画像を再構築する。
実用面では、利用者からのテキストによる指示(プロンプト)を条件として入力することで、意図に沿った画像を生成する「潜在拡散モデル」が広く普及している。これは画像を直接処理するのではなく、データの意味情報を凝縮した低次元の潜在空間上で拡散プロセスを行うことで、計算量を抑えつつ高精細な出力を可能とする。
拡散モデルは物理学の熱力学における拡散の概念に着想を得ており、強固な数学的裏付けに支えられている。敵対的生成ネットワーク(GAN)などの従来方式に比べると、学習が安定しやすく生成される画像の多様性が高いとされる。画像生成だけでなく音声や動画の生成、創薬分野における分子構造の設計など様々な分野で応用されている。