読み方 : ジーピーティーフォーオー

GPT-4o

GPT-4oとは?

オープンAIOpenAI)社が2024年に公開した大規模言語モデルLLM)。文字情報(テキスト)、画像、音声の入出力を単一モデルで統合的に処理できる「マルチモーダル」構成のモデルで、GPT-4から処理速度と効率が大幅に改善されている。
GPT-4oのイメージ画像

前モデルからの最大の変化は音声処理の統合である。従来モデルで音声対話を実現するには、音声認識、言語処理、音声合成を別々のシステムで処理する構成が必要であった。GPT-4oはこれらを単一のニューラルネットワークで処理するため、発話から応答までの遅延が短縮され、人間同士の会話に近いテンポでのやり取りが可能になった。声のトーンや情緒的なニュアンスの認識、出力音声への抑揚の表現にも対応可能である。

画像処理についても、写真や図表の内容認識、手書きメモの解析(OCR)、物体の識別など幅広い入力に対応する。改良版では「4o Image Generation」として画像生成機能も組み込まれ、文字による指示で高精度な画像を出力する。テキスト処理においても、文書読解、コード生成、多言語翻訳といった従来の言語処理タスクを高い水準でこなす。

対話型AIチャットサービス「ChatGPT」の無料プランを含む各プランに順次展開されたほか、ソフトウェアから機能を呼び出すAPIとしても提供されている。GPT-4 Turboと比べて処理速度が速く、API利用コストも低く設定されたことから、サービスへの組み込み用途でも採用が広がった。「o」は「omni」(あらゆる)を意味し、複数の情報形態(モダリティ)を統合して扱う設計思想を表している。公開後も継続的に改良が加えられており、GPT-4oをベースとした派生モデルも展開されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。