読み方 : ダリ
DALL-E
概要

モデルで、Transformer系のニューラルネットワークを基盤としている。文字情報(テキスト)と画像を同一の系列データとして扱い、単語や画像の断片(パッチ)をトークン化して確率的に生成する。学習段階では、大規模なテキストと画像の対からなるデータを用い、文章表現と視覚的特徴の対応関係をモデル内部に獲得させている。
2021年に発表された初代モデルは、同社の大規模言語モデル(LLM)である「GPT-3」の技術を応用し、文字と画像の対応関係を学習している。文字情報が表す意味や文脈を頼りに、既に世の中に存在する概念の画像だけでなく「アボカドの形をした椅子」といった現実には存在しない独創的な概念の組み合わせを描き出すことができる。
二代目のDALL-E 2では画像の生成手法として拡散モデル(diffusion model)が導入された。これは、ノイズまみれの画像から段階的にノイズを取り除き、鮮明な画像を構築する手法である。画像と文章を共通の空間で結びつける「CLIP」(Contrastive Language–Image Pre-training)という技術を組み合わせることで、プロンプトの細かなニュアンスをより忠実に反映し、写真のような高精細な画像を生成できるようになった。
第三世代のDALL-E 3では、同社のAIチャットサービス「ChatGPT」との統合により、曖昧な指示からも詳細なプロンプトを自動生成し、意図に近い画像を作成できる。著作権や倫理面への配慮も組み込まれており、アーティストの作風を直接模倣することや公人の画像を生成することを制限する安全策も強化されている。なお、名称の正式な表記は「DALL•E」と、DALLとEの間は中黒(ビュレット)である。