読み方 : アクタークリティック

Actor-Critic

概要

Actor-Criticとは、強化学習で最適な行動を学習させる手法の一つで、行動指針に基づいて行動の選択を行うモデルと、行動の価値を評価するモデルの二者が協調して学習を進めるもの。強化学習の有力な二手法である価値関数方策勾配法の両方を組み合わせた方式である。

強化学習とは

強化学習とは機械学習の手法の一つで、システムの行動に対して評価(報酬)が与えられ、行動の試行錯誤を繰り返して評価を最大化するような行動パターンを学習させる手法である。機械の制御や競技、ゲームなどを行うAIの訓練に適している。

方策と価値関数

強化学習ではボードゲームでいう盤面に相当する「状態」(state)と、指し手に相当する「行動」(action)の組み合わせで対象をモデル化する。AIが一手ずつ行動するたびに状態が変化していき、何らかの「報酬」(reward)が得られる。どのような状態のとき、どのような確率でどのような行動を取るのかを定めた行動指針を「方策」(policy)という。

良い方策を探索する方法論は大きく分けて二つある。一つは、各状態や、各状態における各行動にどのくらいの価値があるのか数値で表す「価値関数」(value function)を定義して、これが最も高くなるように学習する手法である。もう一つは、方策そのものを関数で表し、最も報酬が高くなるように学習する手法である。

ActorとCritic

Actor-Criticは、価値関数ベースの手法と方策ベースの手法を組み合わせた手法である。行動を選択する「Actor」(演者)と、Actorの選択した行動に評価を与える「Critic」(批評家)という二つのモデルが協調して学習を進める。

Actorは方策をパラメータで表した関数を持っており、方策に従って現在の状況から一つの行動を選択する。Criticは状態や行動の良さを評価する価値関数を持っており、Actorの選択した行動や遷移先の状態を評価してActorに伝える。価値関数は、状態sの価値を評価する状態価値関数 V(s) か、状態sにおける行動aの価値を評価する行動価値関数 Q(s,a) のいずれかが用いられる。

ActorとCriticは互いに相手から与えられる情報に基づいて学習する。ActorはCriticが提供する価値関数の値に基づいて方策のパラメータを更新する。CriticはActorが選択した行動によって起きる状態遷移によって実際の報酬の値を取得し、価値関数パラメータを更新する。純粋に方策のみ、あるいは価値関数のみを用いる手法に比べ学習が安定しやすいとされる。

(2025.11.14更新)