読み方 : ピーピーオー
PPO【Proximal Policy Optimization】近接方策最適化
概要

強化学習では、エージェントが環境と相互作用しながら報酬を最大化する方策を学習する。方策勾配法は方策を直接パラメータ化して更新するが、更新幅が大きいと性能が急激に悪化する問題が知られている。PPOはこの問題を緩和するため、新しい方策が古い方策から大きく離れすぎないように制限を設ける。
具体的には、新旧方策の確率比を用いた目的関数が定義され、その値が一定範囲を超えた場合に利得が打ち切られるクリッピング手法が用いられている。方策の更新に制限を設けるアイデアは先行するTPRO(Trust Region Policy Optimization)と同様だが、数学的な複雑さを解消し、少ない計算量で同等の機能を発揮することができる。
PPOはロボット制御やゲームプレイなど様々な分野で活用されている。特に、大規模言語モデル(LLM)を人間のフィードバックによって微調整し、数値化が難しいニュアンスなどを最適化するRLHF(Reinforcement Learning from Human Feedback)手法に組み込まれ、チャットAIの品質を実用レベルに引き上げる鍵となった技術として知られる。