読み方 : ユーシービーほうさく

UCB方策 【Upper Confidence Bound policy】

概要

UCB方策(Upper Confidence Bound policy)とは、強化学習におけるバンディットアルゴリズムで用いられる方策の一つで、各選択肢について、既知の平均報酬に過去の選択回数の少なさを加味したスコアを算出して優先度を決める方式。

解説 強化学習とは機械学習の手法の一つで、システムの行動に対して評価(報酬)が与えられ、行動の試行錯誤を繰り返して評価を最大化するような行動パターンを学習させる手法である。機械の制御や競技、ゲームなどを行うAIの訓練に適している。

バンディットアルゴリズムでは、より報酬の高い行動を探す「探索」と、既に発見した行動の中で最も報酬の高いものを実行する「活用」が行われる。行動が探索に偏りすぎると既知の高報酬の行動ができず、活用に偏りすぎると未知の高い報酬の行動を発見できないというジレンマがある。

両者のバランスを取るための行動の選択基準を「方策」(policy)と呼び、UCB方策はその一つである。各行動のこれまでの報酬と選択回数を元に、より報酬が高く、より過去の選択回数が少ないものを優先的に選択する。報酬が高いことが分かっていても、何度も選択された行動は次第に優先度が下がっていくようにすることで、行動の選択が探索と活用のどちらか一方に偏らないようにする。

行動の優先度を比較する際に算出する値をUCBスコアと呼び、過去の平均報酬に、選択回数に基づくボーナス項を加えたものとなっている。ボーナス項の算出法は様々なものが提唱されているが、UCB方策が考案された際に最初に用いられたのは、2lnその行動の選択回数選択回数の合計 (lnは自然対数)という算出法である。

(2025.10.16更新)