読み方 : レインボー
Rainbow
概要

DQN(Deep Q-Network)に対して個別に提案されてきた改良要素を一つのアルゴリズムにまとめている。行動価値の過大評価を抑える「ダブルDQN」、重要な経験を優先的に学習する「優先度付き経験再生」、状態価値と行動価値を分離する「デュエリングネットワーク」、先々の報酬まで考慮する「マルチステップ学習」、報酬の分布を予測する「分布型強化学習」、パラメータにノイズを加えて探索を促す「ノイジーネットワーク」の6つである。
Rainbowは単なる拡張手法の寄せ集めに留まらず、各要素が補完し合うことで相乗効果を生むことを示した。当時の主要なベンチマークにおいて圧倒的な最高スコアを記録し、特にアタリ(Atari)社のゲーム環境を用いた評価では、従来のDQNを遥かに凌駕する学習速度と最終的な精度を達成した。一方、構成要素が多く、計算量の増大や実装が複雑になることは避けられず、用途や計算資源に応じたアルゴリズムの取捨選択の重要性も同時に示した。