読み方 : マルコフけっていかてい
マルコフ決定過程【MDP】Markov Decision Process
概要
マルコフ決定過程とは、確率的に意思決定を行うエージェントの振る舞いをモデル化した過程のうち、次の状態が現在の状態と選択した行動のみに基づいて決定され、他の要因の影響は受けないもの。

確率的に事象が推移する確率過程について、次に起きる事象の確率が現在あるいは直近の状態のみによって決定され、以前の状態には依存しないような性質を「マルコフ性」、そのような過程を「マルコフ過程」という。過去の状態を考慮しなくてよいため、現象のシミュレーションや予測に有用なモデルである。
マルコフ決定過程はこれを意思決定過程に導入したモデルである。ある状態(state)から次の状態への遷移は、エージェントによる行動(action)によって生じ、現在の状態と行動の組み合わせのみから遷移先の状態が決定される。エージェントは遷移に伴って報酬(reward)を得る。その様子は、状態、行動、遷移先を矢印で結んだダイアグラムで表現することができる。
マルコフ決定過程は1950年代に動的計画法と共に広まり、機械の自動制御や経済学の分析など様々な分野に応用されている。近年では、人工知能(AI)の一分野である強化学習で、エージェントの振る舞いを記述するモデルとして頻繁に参照される。
(2025.11.12更新)