読み方 : レインボー

Rainbow

概要

Rainbowとは、深層強化学習の代表的なアルゴリズムであるDQNに、6つの独立した改良手法を統合したもの。2017年に米グーグル(Google)社傘下のディープマインド(DeepMind)社が発表した。
Rainbowのイメージ画像

DQNDeep Q-Network)に対して個別に提案されてきた改良要素を一つのアルゴリズムにまとめている。行動価値の過大評価を抑える「ダブルDQN」、重要な経験を優先的に学習する「優先度付き経験再生」、状態価値と行動価値を分離する「デュエリングネットワーク」、先々の報酬まで考慮する「マルチステップ学習」、報酬の分布を予測する「分布型強化学習」、パラメータにノイズを加えて探索を促す「ノイジーネットワーク」の6つである。

Rainbowは単なる拡張手法の寄せ集めに留まらず、各要素が補完し合うことで相乗効果を生むことを示した。当時の主要なベンチマークにおいて圧倒的な最高スコアを記録し、特にアタリ(Atari)社のゲーム環境を用いた評価では、従来のDQNを遥かに凌駕する学習速度と最終的な精度を達成した。一方、構成要素が多く、計算量の増大や実装が複雑になることは避けられず、用途や計算資源に応じたアルゴリズムの取捨選択の重要性も同時に示した。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。