読み方 : ほうしゅうせいけい
報酬成形【reward shaping】
概要
報酬成形とは、強化学習においてエージェントが目的を達成しやすくするために、本来の報酬に加えて補助的な報酬を設計し、学習のプロセスを効率的にガイドする手法。

強化学習の基本的な仕組みでは、エージェントが最終的な目標に到達した際に報酬を与え、そこに至るまでの行動をより高い確率で選択するように学習させる。しかし、ゴールに到達するまでの手順が長大で複雑なタスクでは、偶然ゴールにたどり着きに報酬を得る確率が低くなり、学習が進まないという問題が生じる。
報酬成形では、目標に近づくような望ましい行動や状態の変化に対して、小さな報酬を段階的に与える。これにより、エージェントはどの方向へ探索を進めるべきかのヒントを得ることができ、ゴールにたどり着くまでの時間を大幅に短縮することができる。報酬が疎(稀にしか得られない)であったり遅れて与えられるタスクでも効率的に学習が進む。
ただし、補助報酬を無計画に追加すると、設計者が意図しない挙動をエージェントが学習してしまう「報酬ハック」(報酬ハッキング)と呼ばれる現象が発生することがある。例えば、50mを速く走るロボットの形状をデザインを提案させたら、「高さ50mのロボットを作りスタート直後にゴールに向かって倒す」といった「ズル」をするようになってしまうことがある。
このような副作用を防ぐには、報酬成形を元の最適方策を変えないように設計する必要がある。数学的にこれを保証するため、各状態に定義されたポテンシャル関数の差分を報酬として加える手法が提唱されている。元の報酬で定義される最適行動が維持されるため、安全に学習を加速できる。