読み方 : ジーピーティーフォーオー
GPT-4o
GPT-4oとは?

前モデルからの最大の変化は音声処理の統合である。従来モデルで音声対話を実現するには、音声認識、言語処理、音声合成を別々のシステムで処理する構成が必要であった。GPT-4oはこれらを単一のニューラルネットワークで処理するため、発話から応答までの遅延が短縮され、人間同士の会話に近いテンポでのやり取りが可能になった。声のトーンや情緒的なニュアンスの認識、出力音声への抑揚の表現にも対応可能である。
画像処理についても、写真や図表の内容認識、手書きメモの解析(OCR)、物体の識別など幅広い入力に対応する。改良版では「4o Image Generation」として画像生成機能も組み込まれ、文字による指示で高精度な画像を出力する。テキスト処理においても、文書読解、コード生成、多言語翻訳といった従来の言語処理タスクを高い水準でこなす。
対話型AIチャットサービス「ChatGPT」の無料プランを含む各プランに順次展開されたほか、ソフトウェアから機能を呼び出すAPIとしても提供されている。GPT-4 Turboと比べて処理速度が速く、API利用コストも低く設定されたことから、サービスへの組み込み用途でも採用が広がった。「o」は「omni」(あらゆる)を意味し、複数の情報形態(モダリティ)を統合して扱う設計思想を表している。公開後も継続的に改良が加えられており、GPT-4oをベースとした派生モデルも展開されている。