読み方 : ダリ

DALL-E

概要

DALL-Eとは、文字による指示文(プロンプト)から画像を生成する深層学習モデルの一つ。米オープンAI(OpenAI)が開発したマルチモーダルAIで、自然言語と視覚表現を統合的に学習することができる。画像生成AIが普及するきっかけの一つとなった。
DALL-Eのイメージ画像

モデルで、Transformer系のニューラルネットワークを基盤としている。文字情報(テキスト)と画像を同一の系列データとして扱い、単語や画像の断片(パッチ)をトークン化して確率的に生成する。学習段階では、大規模なテキストと画像の対からなるデータを用い、文章表現と視覚的特徴の対応関係をモデル内部に獲得させている。

2021年に発表された初代モデルは、同社の大規模言語モデルLLM)である「GPT-3」の技術を応用し、文字と画像の対応関係を学習している。文字情報が表す意味や文脈を頼りに、既に世の中に存在する概念の画像だけでなく「アボカドの形をした椅子」といった現実には存在しない独創的な概念の組み合わせを描き出すことができる。

二代目のDALL-E 2では画像の生成手法として拡散モデルdiffusion model)が導入された。これは、ノイズまみれの画像から段階的にノイズを取り除き、鮮明な画像を構築する手法である。画像と文章を共通の空間で結びつける「CLIP」(Contrastive Language–Image Pre-training)という技術を組み合わせることで、プロンプトの細かなニュアンスをより忠実に反映し、写真のような高精細な画像を生成できるようになった。

第三世代のDALL-E 3では、同社のAIチャットサービス「ChatGPT」との統合により、曖昧な指示からも詳細なプロンプトを自動生成し、意図に近い画像を作成できる。著作権や倫理面への配慮も組み込まれており、アーティストの作風を直接模倣することや公人の画像を生成することを制限する安全策も強化されている。なお、名称の正式な表記は「DALL•E」と、DALLとEの間は中黒ビュレット)である。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。