読み方 : れんぞくちせいぎょ

連続値制御【continuous control】

概要

連続値制御とは、行動や制御入力が離散的ではなく連続的な実数値として表現される問題。ロボットの関節角度や車両の加速量など、現実世界の物理的な制御の問題の多くがこれに含まれる。
連続値制御のイメージ画像

機械学習強化学習の分野では、当初は将棋の打ち手のように有限個の選択肢から一つを選ぶ離散的な行動空間を扱う問題を対象として発展してきた。しかし、現実世界で機械などを制御する問題では、位置、速度、角度といった量が連続的に変化するため、離散値で近似すると表現精度の低下や制御の不安定化を招く場合がある。

連続値制御を実現するための機械学習アルゴリズムとしては、決定論的な行動を出力する手法と、確率分布を用いて行動をサンプリングする手法の二つがよく知られる。ニューラルネットワークは、行動そのものを直接出力するか、あるいは行動が従うべき正規分布の平均と分散を出力するように設計される。

学習の過程では、ネットワークが現在の状態に対して最も高い報酬を期待できる数値の組み合わせを探索していく。代表的な手法には、決定論的な方針勾配を用いる「DDPG」(Deep Deterministic Policy Gradient)や、学習の安定性を高めるために方針の更新幅を制限する「PPO」(Proximal Policy Optimization)、エントロピーを導入して探索効率を高める「SAC」(Soft Aactor-Critic)などがある。

一般に、連続値制御は離散的な制御に比べて学習の難易度が高い。行動空間が無限の広がりを持つため、エージェントが偶然に良い行動を見つけ出す確率が低下し、探索が困難になりやすいためである。わずかな数値の変化がシステム全体に大きな影響を及ぼす可能性があり、学習の安定性を保つための工夫が求められる。近年ではシミュレータ上での強化学習と実機への転移学習を組み合わせる手法が発展しており、ドローンやロボット、自動運転などで高度な自律制御を実現している。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。