読み方 : ピーピーオー

PPO【Proximal Policy Optimization】近接方策最適化

概要

PPOとは、強化学習における方策最適化手法の一つであり、学習の安定性と実装の容易さを両立するアルゴリズム。2017年に米オープンAI(OpenAI)社によって発表された手法で、深層強化学習の標準的な手法の一つとして知られる。
PPOのイメージ画像

強化学習では、エージェントが環境と相互作用しながら報酬を最大化する方策を学習する。方策勾配法は方策を直接パラメータ化して更新するが、更新幅が大きいと性能が急激に悪化する問題が知られている。PPOはこの問題を緩和するため、新しい方策が古い方策から大きく離れすぎないように制限を設ける。

具体的には、新旧方策の確率比を用いた目的関数が定義され、その値が一定範囲を超えた場合に利得が打ち切られるクリッピング手法が用いられている。方策の更新に制限を設けるアイデアは先行するTPRO(Trust Region Policy Optimization)と同様だが、数学的な複雑さを解消し、少ない計算量で同等の機能を発揮することができる。

PPOはロボット制御やゲームプレイなど様々な分野で活用されている。特に、大規模言語モデルLLM)を人間のフィードバックによって微調整し、数値化が難しいニュアンスなどを最適化するRLHFReinforcement Learning from Human Feedback)手法に組み込まれ、チャットAIの品質を実用レベルに引き上げる鍵となった技術として知られる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。