読み方 : しんそうきょうかがくしゅう

深層強化学習【DRL】Deep Reinforcement Learning/Deep RL

深層強化学習とは?

強化学習深層学習を組み合わせた機械学習手法。環境との試行錯誤を通じて行動方策を学習する仕組みに、深い階層を持つニューラルネットワークを用いるものである。
深層強化学習のイメージ画像

強化学習では、学習主体であるエージェントが環境の状態を観測し、行動を選択して報酬を受け取り、その結果をもとに行動方策を更新する過程を繰り返す。深層強化学習では、この状態から行動や価値を推定する部分に深層ニューラルネットワークDNN)を用いることで、画像やセンサー情報など複雑な入力を直接扱えるようになる。手作業で特徴量を設計する工程を省き、経験から抽象的な表現を獲得しながら学習が進む仕組みとなっている。

代表的な手法には、行動価値関数ニューラルネットワークで近似する「DQN」(Deep Q-Network)や、方策を直接学習する「方策勾配法」、価値観数ベースの手法と方策勾配法を組み合わせた「Actor-Critic」などがある。多数の階層を持つニューラルネットワークを用いるため、調整すべきパラメータ数計算量が極めて多く、大量の試行と計算資源を必要となる。

応用分野としては、ゲームプレイの自動化、ロボットの運動制御、自動運転の意思決定、資源配分の最適化などが挙げられる。特に、シミュレーション環境と組み合わせることで安全かつ高速に試行回数を増やすことが可能となり、実環境へ転移する研究も進められている。一方、報酬設計の難しさや学習に要する時間、未知の状況での挙動の説明性などの課題も指摘されており、改良手法や理論的解析の研究が続いている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。