読み方 : きょうかがくしゅう
	
	強化学習【reinforcement learning】RL
概要

他の学習手法と異なり、人間がまとまった形で学習データを与えることはせず、システムには自身が現在置かれている環境や状態および可能な行動の選択肢と、行動(出力)に対する評価が与えられる。システムは現在の状況を入力として行動を選択し、得られた評価を元に好ましい行動を学んでいく。
実際には、行動一回ごとにその良し悪しを評価する仕組みを用意するのは非現実的なことが多いため、連続して行動を起こした結果何らかの目標を達成(対戦に勝利する等)した場合に、遡って一連の行動に良い評価を与えるという設計にすることが多い。
近年ではニューラルネットワークの階層を深くしたディープラーニングに強化学習を組み合わせることで非常に複雑なタスクの自動化が可能なことが示され、注目が集まっている。システムが環境に働きかけて試行錯誤を行える状況に適しており、囲碁や将棋、ビデオゲームなどのプレイ、自動運転、ロボット制御などへの適用事例がよく知られる。
(2021.9.18更新)
		
	






































 共有ボタンをタップ
 共有ボタンをタップ