読み方 : オフラインきょうかがくしゅう
オフライン強化学習【offline reinforcement learning】
概要

通常の強化学習は「オンライン強化学習」と呼ばれ、エージェントが環境と逐次的に相互作用しながら行動を選択し、その結果として得られる報酬や状態遷移を用いて方策を更新する。一方、オフライン強化学習では、過去に人間や既存システムが収集した状態・行動・報酬のデータセットが与えられ、それ以外の追加データ収集は行わない。
過去の操作ログや熟練者の行動記録といった、既存の固定されたデータを教科書のように利用して強化学習を進める。探索による試行錯誤が許されない状況でも適用でき、医療やロボット制御、産業プロセスなど、安全性やコストの制約が厳しい分野で特に有用である。
ただし、学習済み方策がデータセットにほとんど含まれていない行動を選択すると、価値関数の推定誤差が大きくなり、性能が著しく低下する「分布シフト」(distribution shit)という問題が生じることがある。この問題に対処するため、データに近い行動を選好する正則化や、価値推定の過大評価を抑制する手法が提案されている。