読み方 : イプシロングリーディーほうさく
ε-greedy方策 【ε-greedy policy】
概要
ε-greedy方策(ε-greedy policy)とは、強化学習におけるバンディットアルゴリズムで用いられる方策の一つで、一定の確率で新しい選択肢を試し、残りは既知の最も優れた選択肢を実行するもの。解説 強化学習とは機械学習の手法の一つで、システムの行動に対して評価(報酬)が与えられ、行動の試行錯誤を繰り返して評価を最大化するような行動パターンを学習させる手法である。機械の制御や競技、ゲームなどを行うAIの訓練に適している。
バンディットアルゴリズムでは、より報酬の高い行動を探す「探索」と、既に発見した行動の中で最も報酬の高いものを実行する「活用」が行われる。行動が探索に偏りすぎると既知の高報酬の行動ができず、活用に偏りすぎると未知の高い報酬の行動を発見できないというジレンマがある。
両者のバランスを取るための行動の選択基準を「方策」(policy)と呼び、ε-greedy方策はその一つである。事前に決めたある確率εで探索を行い、残りの確率1-εは活用に回すというシンプルな手法である。例えば、εが0.1なら10%の確率で未知の行動、90%の確率で既知の最も優れた行動を選択する。
(2025.10.16更新)