読み方 : かちかんすう
価値関数 【value function】
概要
価値関数(value function)とは、強化学習において、現在の状態や次に取る行動の選択肢にどのくらい価値があるのかを算出する関数。状態や行動から将来得られる報酬を数値の大小で表現する。解説 強化学習とは機械学習の手法の一つで、システムの行動に対して評価(報酬)が与えられ、行動の試行錯誤を繰り返して評価を最大化するような行動パターンを学習させる手法である。機械の制御や競技、ゲームなどを行うAIの訓練に適している。
強化学習ではボードゲームでいう盤面に相当する「状態」と、指し手に相当する「行動」の組み合わせで対象をモデル化する。コンピュータが一手ずつ行動するたびに状態が変化していき、目的に対して有利な状況になったり不利な状況になったりする。ゴールの状態に達することを目指して有利な行動を学習する。
価値関数は、ある状態や行動が「どのくらい良いか」を数値として与える関数で、特定の状態や行動を入力として与えると、将来に渡って得られる報酬を積算したものを返す。将来の報酬は一手遡るごとに特定の割引率に従って割り引かれ、遠い将来の報酬は小さく、近い将来の報酬は大きく評価される。
価値関数のうち、ある状態sの価値を算出するものを「状態価値関数」と呼び、慣習的に V(s) と書き表す。一方、ある状態sにおける行動aの価値を算出するものは「行動価値関数」と呼ばれ、こちらは慣習的に Q(s,a) と表す。行動価値関数の評価値のことを「Q値」と呼ぶことがある。
(2025.10.14更新)