読み方 : ディーシーガン / ディーシーギャン
DCGAN【Deep Convolutional Generative Adversarial Networks】
概要

従来のGANは全結合層を中心とした構成で、画像の局所的な構造や平行移動不変性を十分に捉えにくいという課題があった。DCGANでは、生成器と識別器の双方に畳み込み層を用いることで、画像の階層的特徴を効率的に学習できるよう設計されている。生成器では転置畳み込みにより低次元の潜在変数から画像を段階的に拡大し、識別器では畳み込みによって画像を縮約しながら真偽判定を行う。
一般的なCNNで用いられるプーリング層を廃止し、ストライド付きの畳み込み層や転置畳み込み層を採用した。これにより、ネットワーク自体がデータの空間的な特徴を補完しながら学習することを可能にしている。中間層にバッチ正規化を導入することで、学習中に各層の入力分布を適切に調整し、勾配消失や学習の停滞といった問題を抑制している。
また、モデルがランダムな数値の集合から画像を生成する際、その数値をベクトルとして操作することで、生成される画像の内容を意図的に制御することができる。例えば、「眼鏡をかけた男性」に対応するベクトルから「男性」のベクトルを引き、「女性」のベクトルを足すと、「眼鏡をかけた女性」の画像が生成される。対象物の意味的な特徴を内部で高度に抽象化して捉えており、ベクトル演算による概念の操作が可能である。
DCGANは2015年に発表された。初期のGANが抱えていた学習の不安定性という課題に対してCNNとの融合という解を与え、画像生成モデルを実用レベルに近づけた功績は大きい。一方、高解像度の画像への適用や多様性の確保には課題が指摘され、その後の様々なGANの改良手法へ発展していった。