読み方 : フォーオーイメージジェネレーション

4o Image Generation

4o Image Generationとは?

オープンAIOpenAI)社が2025年3月に公開した画像生成機能。文字入力の指示(プロンプト)によって高精度な画像を生成したり、既存の画像を編集・加工したりできる。対話型AIサービス「ChatGPT」や動画生成サービス「Sora」に組み込まれており、自然な会話の流れの中で画像を作成・調整できる。
4o Image Generationのイメージ画像

従来のChatGPT画像生成に外部モデルを呼び出す構成をとっていたが、4o Image Generationでは画像出力をモデル本来の機能として扱う設計に変わった。また、画像生成モデルの「DALL-E」や「Stable Diffusion」が採用する「拡散モデル」とは異なり、「自己回帰モデル」方式の生成手法を採用している。この構造の違いが、文字と画像にまたがる文脈理解の深さに繋がっている。

人物や物体の配置や背景、色、構図といった細かな条件を利用者が文字入力で指定すると、その内容に沿った画像を生成する。会話の文脈を保持したまま修正指示を追加できるため、「帽子を追加する」「背景を夜景に変える」といった段階的な編集にも対応する。他のシステムが5~8個程度のオブジェクトの処理に苦労する場面でも、最大10~20個の異なるオブジェクトを適切に配置できるとされている。

従来の画像生成AIでは画像内の文字が崩れて表示されるという課題があったが、4o Image Generationはこの問題を大幅に改善している。看板やメニュー、招待状など文字情報を含む画像の生成精度が向上しており、日本語文字を含む画像にも対応する。利用者がアップロードした既存の画像をもとに新しいイラストやデザインを展開する用途にも利用でき、同一キャラクターが登場する複数枚の画像を一貫したタッチで描くといった処理も可能である。

生成画像にはAI生成物であることを示すC2PAメタデータが付与され、不適切な画像や著名人の悪用を防ぐための制限も導入されている。2025年3月のリリース時点でChatGPTの有料プランおよび一部の無料利用者に提供され、DALL-Eに代わるデフォルトの画像生成モデルとして採用された。利用規約の範囲内において、Webサイト素材や広告など商用目的での使用も認められている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。