Text-to-Image

コンピュータビジョンと自然言語処理を融合させたマルチモーダル学習の代表例であり、言葉と画像の結びつきを学習した巨大なニューラルネットワークを用いる。モデルは入力文を解析して対象物や属性、関係性などを内部表現として捉え、これを条件に画像データを生成する。単語レベルの一致だけでなく、文全体の文脈や修飾関係を考慮した表現学習が求められる。
画像生成モデルとして初期には「敵対的生成ネットワーク」(GAN)が用いられていたが、現在は「拡散モデル」(diffusion model)が主流となっている。拡散モデルは、画像にノイズを加えていく過程を逆にたどり、何もないノイズの状態から少しずつ意味のある形を復元していくことで画像を生成する。この復元プロセスにおいて、入力された文字情報をガイドとして与えることにより、利用者の意図に沿った画像が作り出される。
また、文字情報と画像を共通の概念空間で理解する「CLIP」(Contrastive Language–Image Pre-training)などの技術が重要な役割を果たしている。単なる単語の一致ではなく「夕焼けの中を走る犬」といった複雑なシチュエーションや、特定の画風、光の当たり方といった抽象的な指示までもが正確に画像へ反映される。未学習の概念や組み合わせであっても、文字が指し示す概念や文脈を組み合わせて新しい視覚表現を構成する能力を持っている。
Text-to-Imageは画像生成サービスやチャットAIの機能の一部として組み込まれ、広告デザインやゲーム制作、コンセプトアートの作成など、クリエイティブな業務に広く用いられている。一方、生成された画像の著作権の扱いや、学習データに含まれる偏見やバイアスが生成結果に反映されてしまう問題、高精細な偽画像である「ディープフェイク」(deep fake)の悪用といったこれまでにない倫理的、法的な問題を引き起こしている。