読み方 : ほうさくこうばいほう

方策勾配法【policy gradient method】

概要

方策勾配法とは、強化学習で最適な行動を学習させる手法の一つで、行動の選択基準を何らかのパラメータに従う関数として表し、勾配降下法を用いて目的を最も満たすパラメータを求める手法。
方策勾配法のイメージ画像

強化学習とは機械学習の手法の一つで、システムの行動に対して評価(報酬)が与えられ、行動の試行錯誤を繰り返して評価を最大化するような行動パターンを学習させる手法である。機械の制御や競技、ゲームなどを行うAIの訓練に適している。

強化学習ではボードゲームでいう盤面に相当する「状態」(state)と、指し手に相当する「行動」(action)の組み合わせで対象をモデル化する。AIが一手ずつ行動するたびに状態が変化していき、何らかの報酬(reward)が得られる。どのような状態のとき、どのような確率でどのような行動を取るのかを定めた行動指針を「方策」(policy)という。

最適な方策を求める手法として、一般に「価値関数」(value function)を用いたアプローチがよく用いられる。これは次に選択する行動や、選択の結果遷移する状態から得られる報酬を将来に渡って積算した関数で、これが最大化するように方策を定める。

一方、方策勾配法は価値観数を用いずに方策そのものをパラメータを用いて関数で表す。方策から将来に渡って得られる累積報酬を目的関数として、試行錯誤の度にその勾配(微分値)を計算し、得られる報酬が最大化するように少しずつパラメータを修正していく。

方策勾配法はロボットの動きの制御のように、問題が複雑だったり、取り得る行動の選択肢が広い範囲に及び、価値関数の計算が困難な状況で選択される。具体的なアルゴリズムとして、「REINFORCE」(リインフォース)や「Actor-Critic」(アクター・クリティック)などの手法が知られている。

(2025.11.12更新)