読み方 : ダブルディーキューエヌ

ダブルDQN【Double DQN】DDQN

概要

ダブルDQNとは、DQNの改良版で、Q値の過大評価問題を軽減する強化学習手法。行動選択と価値評価の役割を二つのネットワークに分担させることで、学習の安定性を向上させている。
ダブルDQNのイメージ画像

通常のDQNでは、ある状態で最大の報酬が期待できる行動を選ぶ際、同じネットワークを使って「どの行動がベストか」を判断し、同時に「その価値はいくらか」を計算する。しかし、学習途中のネットワークには推定誤差が含まれているため、偶然高い値が出た行動を過剰に高く評価してしまう傾向がある。

ダブルDQNでは、このような「過大評価」を緩和するため、行動を選択するネットワークと、その行動の価値を評価するネットワークを役割として分ける設計が採用された。まずメインのネットワークを用いて「次の状態でどの行動が最大価値を持つか」を選択し、その上で、選ばれた行動の実際の価値がいくらになるかを、もう一方のターゲットネットワークを使って算出する。

選択と評価を別々のネットワークで行うことにより、特定の行動に対する一時的な過大評価が学習全体に波及するのを効果的に抑制している。構成自体はDQNと類似しており、経験再生やターゲットネットワークといった基本要素も引き続き用いられる。学習時の計算式をわずかに調整するだけで導入でき、DQNの拡張手法の一つとして他の改良技術と組み合わせて利用されることが多い。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。