読み方 : オフラインきょうかがくしゅう

オフライン強化学習【offline reinforcement learning】

概要

オフライン強化学習とは、強化学習の手法の一つで、環境と新たに相互作用せず、あらかじめ収集された固定データのみを用いて方策を学習するもの。実世界での実験が困難な自動運転や医療診断などで、安全かつ効率的に賢い意思決定モデルを構築することができる。
オフライン強化学習のイメージ画像

通常の強化学習は「オンライン強化学習」と呼ばれ、エージェントが環境と逐次的に相互作用しながら行動を選択し、その結果として得られる報酬や状態遷移を用いて方策を更新する。一方、オフライン強化学習では、過去に人間や既存システムが収集した状態・行動・報酬のデータセットが与えられ、それ以外の追加データ収集は行わない。

過去の操作ログや熟練者の行動記録といった、既存の固定されたデータを教科書のように利用して強化学習を進める。探索による試行錯誤が許されない状況でも適用でき、医療やロボット制御、産業プロセスなど、安全性やコストの制約が厳しい分野で特に有用である。

ただし、学習済み方策がデータセットにほとんど含まれていない行動を選択すると、価値関数の推定誤差が大きくなり、性能が著しく低下する「分布シフト」(distribution shit)という問題が生じることがある。この問題に対処するため、データに近い行動を選好する正則化や、価値推定の過大評価を抑制する手法が提案されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。