読み方 : じょうたいかちかんすう
状態価値関数 【state value function】
解説 強化学習とは機械学習の手法の一つで、システムの行動に対して評価(報酬)が与えられ、行動の試行錯誤を繰り返して評価を最大化するような行動パターンを学習させる手法である。機械の制御や競技、ゲームなどを行うAIの訓練に適している。
強化学習ではボードゲームでいう盤面に相当する「状態」と、指し手に相当する「行動」の組み合わせで対象をモデル化する。コンピュータが一手ずつ行動するたびに状態が変化していき、目的に対して有利な状況になったり不利な状況になったりする。
状態価値関数は、ある状態が「どのくらい良いか」を数値として与える関数で、特定の状態を入力として与えると、将来に渡って得られる報酬を積算したものを返す。将来の報酬は一手遡るごとに特定の割引率に従って割り引かれ、遠い将来の報酬は小さく、近い将来の報酬は大きく評価される。
ある状態で取り得る行動は一つとは限らず、複数の選択肢の中から一つを選択する。このため、将来取り得る状態も複数の可能性が考えられ、遠い将来になるほど多数の可能性に分岐していく。強化学習では行動を選択する基準を「方策」(policy)と呼び、どの状態でどの行動を取るかは確率として与えられるため、将来の報酬も確率を加味した期待値として表される。
ある状態sにおける状態価値関数は慣習的に V(s) と書き表される。一方、ある状態sにおける行動aの価値を算出するものは「行動価値関数」という。こちらは慣習的に Q(s,a) と表す。状態価値関数と行動価値関数を合わせて「価値関数」と総称することがあるが、行動価値関数の方が重要であり、単に価値関数と言えば行動価値関数を指すことが多い。
(2025.10.15更新)