読み方 : エージェントごじゅうなな

Agent57

概要

Agent57とは、汎用強化学習エージェントの一つで、ビデオゲーム操作の巧拙を測る「Atari 57」ベンチマークで初めて人間を上回るスコアを達成したモデル。米グーグル(Google)社傘下のディープマインド(DeepMind)社が2020年に発表した。
Agent57のイメージ画像

従来の強化学習モデルは、特定のゲームでは極めて強い一方で、報酬が極端に少ないゲームや長期的な戦略が必要なゲームを苦手としていた。Agent57では、未知の状況を積極的に探しに行く「探索」と、これまでに学んだ知識で高いスコアを狙う「活用」を戦況に応じて柔軟に切り替える仕組みを搭載し、単一方策では対応が難しい多様なゲーム特性に適応できる。

基盤となる学習アルゴリズムは分布型強化学習や価値ベース手法を拡張したものだが、ユニークな試みとして従来の外的な報酬に加えて内的な報酬を導入して探索を促進している。これは、報酬がすぐには得られない状況でも「新しい状態に到達すること」自体に報酬を設定するもので、エージェントの好奇心を維持し続ける内的な動機づけとして作用する。このアルゴリズムには「Never Give Up」(NGU)という名前が付けられている。

Agent57は単一のアルゴリズムというより、複数の強化学習技術を統合した包括的なエージェント設計である。その成果は、特定タスクに特化しない汎用的な強化学習の可能性を示すものであり、あらゆる課題に対して一貫して高い性能を発揮する「汎用人工知能」への道筋を、ゲームという複雑なシミュレーションを通じて示した重要な成果と考えられている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。