読み方 : かくさんモデル

拡散モデル【diffusion model】

概要

拡散モデルとは、機械学習によるデータ生成モデルの一つで、データにノイズを加えていく過程と、そのノイズを段階的に取り除いて元のデータを復元する過程を学習する方式。画像生成の有力な手法として知られる。
拡散モデルのイメージ画像

ノイズを加える順方向過程と、ノイズを取り除く逆方向過程の二段階に分けられる。順方向では、学習元の画像に対して微小なノイズを繰り返し加えていき、最終的に全体が完全に無秩序なノイズへ変化する。モデルはこの各ステップにおいて「どの程度のノイズが加えられたか」を予測するように訓練される。生成過程となる逆方向では、何もないノイズの状態から、学習した知識を用いてノイズを一段階ずつ緻密に取り除いていくことで、鮮明な画像を再構築する。

実用面では、利用者からのテキストによる指示(プロンプト)を条件として入力することで、意図に沿った画像を生成する「潜在拡散モデル」が広く普及している。これは画像を直接処理するのではなく、データの意味情報を凝縮した低次元の潜在空間上で拡散プロセスを行うことで、計算量を抑えつつ高精細な出力を可能とする。

拡散モデルは物理学の熱力学における拡散の概念に着想を得ており、強固な数学的裏付けに支えられている。敵対的生成ネットワークGAN)などの従来方式に比べると、学習が安定しやすく生成される画像の多様性が高いとされる。画像生成だけでなく音声や動画の生成、創薬分野における分子構造の設計など様々な分野で応用されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。