4o Image Generation
4o Image Generationとは?

従来のChatGPTは画像生成に外部モデルを呼び出す構成をとっていたが、4o Image Generationでは画像出力をモデル本来の機能として扱う設計に変わった。また、画像生成モデルの「DALL-E」や「Stable Diffusion」が採用する「拡散モデル」とは異なり、「自己回帰モデル」方式の生成手法を採用している。この構造の違いが、文字と画像にまたがる文脈理解の深さに繋がっている。
人物や物体の配置や背景、色、構図といった細かな条件を利用者が文字入力で指定すると、その内容に沿った画像を生成する。会話の文脈を保持したまま修正指示を追加できるため、「帽子を追加する」「背景を夜景に変える」といった段階的な編集にも対応する。他のシステムが5~8個程度のオブジェクトの処理に苦労する場面でも、最大10~20個の異なるオブジェクトを適切に配置できるとされている。
従来の画像生成AIでは画像内の文字が崩れて表示されるという課題があったが、4o Image Generationはこの問題を大幅に改善している。看板やメニュー、招待状など文字情報を含む画像の生成精度が向上しており、日本語文字を含む画像にも対応する。利用者がアップロードした既存の画像をもとに新しいイラストやデザインを展開する用途にも利用でき、同一キャラクターが登場する複数枚の画像を一貫したタッチで描くといった処理も可能である。
生成画像にはAI生成物であることを示すC2PAメタデータが付与され、不適切な画像や著名人の悪用を防ぐための制限も導入されている。2025年3月のリリース時点でChatGPTの有料プランおよび一部の無料利用者に提供され、DALL-Eに代わるデフォルトの画像生成モデルとして採用された。利用規約の範囲内において、Webサイト素材や広告など商用目的での使用も認められている。