OpenAI Operator
OpenAI Operatorとは?

通常の対話型AIはテキストを介して利用者とやり取りするだけで、外部の操作は行わない。Operatorはこれとは異なり、独自のブラウザを立ち上げてWebページを表示し、画面の内容を認識しながら次の操作を判断、実行する。飲食店の予約、商品の購入手続き、フォームへの情報入力など、人間が普段ブラウザ上で行う作業を引き受ける。専用のシステム連携機能を必要とせず、人間が利用する一般的な操作画面をそのまま扱える。
内部的には「CUA」(Computer-Using Agent)と呼ばれるモデルが用いられている。GPT-4oの画像認識能力と強化学習による推論を組み合わせ、画面上のボタンやメニュー、入力欄などのGUI要素を視覚情報として把握して操作する。プログラム間で連携するためのAPIを必要とせず、人間のように画面の見た目だけを手がかりに動作する。ベンチマーク評価ではOSWorldで38.1%、WebArenaで58.1%を記録したが、複雑なUIや多段階のワークフローでは人間レベルの精度には届かなかった。
セキュリティとプライバシーへの配慮として、ログイン操作や決済手続き、画像認証が必要な場面では処理を自動的に一時停止し、利用者に操作を引き渡す仕組みが設けられている。利用者は画面上で進行状況を監視でき、任意のタイミングで手動操作に切り替えた後に処理をAIへ戻すことも可能となっている。作業中にエラーや想定外の画面遷移が発生した場合は、AI自身が推論によって修正を試みる。
公開当初は米国内のChatGPT Proプラン加入者向けの研究プレビューとして提供され、その後、Plus、Team、Enterpriseプランへと対象が拡大された。2025年7月には、Operatorと「Deep Research」(詳細調査機能)を統合した「ChatGPTエージェント」がChatGPT本体に組み込まれ、Operatorはこの動作モードの機能の一部として吸収された。独立したサービスとしてのOperatorは2025年8月に終了している。