読み方 : エイプエックス
Ape-X
概要
Ape-Xとは、分散型強化学習アルゴリズムの一つで、多数のエージェントが並列に経験を収集し、単一の学習モデルに集約する方式。米グーグル(Google)社傘下のディープマインド(DeepMind)社が2018年に発表したもので、学習の効率と速度を劇的に向上させることができる。

試行錯誤して経験を収集する「アクター」(actor)と、その経験を元に学習を行う「ラーナー」(learner)の役割を分離し、非同期に動作させる。数百台規模のアクターがそれぞれ独立して異なる環境で行動し、得られた膨大な経験を共通の共有メモリ領域に蓄積する。ラーナーはこの共有メモリからデータを取り出してネットワークの更新を行う。この分離構造により大量のデータを高速かつ効率的に処理することができる。
ラーナーは共有メモリに蓄積された経験の中から、「優先度付き経験再生」(PER:Prioritized Experience Replay)というアルゴリズムに従い、学習に役立ちそうな「意外性の高い」経験を優先的に取り出して学習する。価値関数の更新誤差が大きい経験が高い確率で再利用されるため、学習効果の高いデータに重点を置いた更新が可能となる。
Ape-Xではアクターごとに異なる探索戦略を採用でき、各アクターが多様な行動を試みることで単一のエージェントで陥りやすい局所解を回避し、より広範な状態空間を網羅できる。また、ラーナーの学習スピードに合わせてアクターの数をスケールアップできるため、分散処理の利点を最大限に引き出すことができる。
Ape-Xはデータ収集の多様性と学習の集中度を高い次元で両立させており、巨大な計算資源を用意することで直接的にモデルの性能向上を測ることができることを示した。その後の強化学習における分散学習の標準的な考え方となり、R2D2などのさらに高度なアルゴリズムの基礎となっている。