読み方 : オープンエーアイファイブ
OpenAI Five
概要

Dota 2は、5対5のチームで戦うリアルタイム戦略ゲームであり、個々の細かな操作だけでなく、チームメイトとの高度な連携や数十分先に及ぶ長期的な戦略が求められる。OpenAI Fiveでは、各キャラクターを操作する5体のエージェントが独立した行動主体として設計されつつ、同一の方策ネットワークを共有することで、チームとしての一貫した行動が可能となっている。入力には視界内のゲーム状態が用いられ、人間と同様の情報制約下で学習が行われた。
学習手法としては、自己対戦を中心とした強化学習が採用されている。AIは自分自身を相手に、1日で人間が180年かけてプレイする量に匹敵する膨大な回数の対戦を繰り返したとされる。エージェントは勝敗などの最終報酬に基づいて方策を更新し、連携行動や役割分担といった高度な戦術を徐々に獲得していった。ルールの簡略化や使用キャラクターの制限など、学習段階に応じた環境設定も取り入れられている。
システム構成としては、各キャラクターを制御するネットワークにLSTM(長・短期記憶)が採用されており、刻々と変化するゲーム内の膨大な情報を時系列に処理することができる。各エージェントは独立して行動を決定するが、「チームスピリット」と呼ばれるハイパーパラメータが設定され、モデルが獲得する報酬として個人の利益よりもチーム全体の勝利を優先するように調整されている。
OpenAI Fiveは単一アルゴリズムではなく、分散強化学習、自己対戦、マルチエージェント学習を統合した大規模システムである。その成功は、不確実な情報が混在する動的な環境下であっても、適切な設計と膨大な計算資源があれば、AIが人間を凌駕する複雑な意思決定を行えることを証明した。