読み方 : ダブルディーキューエヌ
ダブルDQN【Double DQN】DDQN

通常のDQNでは、ある状態で最大の報酬が期待できる行動を選ぶ際、同じネットワークを使って「どの行動がベストか」を判断し、同時に「その価値はいくらか」を計算する。しかし、学習途中のネットワークには推定誤差が含まれているため、偶然高い値が出た行動を過剰に高く評価してしまう傾向がある。
ダブルDQNでは、このような「過大評価」を緩和するため、行動を選択するネットワークと、その行動の価値を評価するネットワークを役割として分ける設計が採用された。まずメインのネットワークを用いて「次の状態でどの行動が最大価値を持つか」を選択し、その上で、選ばれた行動の実際の価値がいくらになるかを、もう一方のターゲットネットワークを使って算出する。
選択と評価を別々のネットワークで行うことにより、特定の行動に対する一時的な過大評価が学習全体に波及するのを効果的に抑制している。構成自体はDQNと類似しており、経験再生やターゲットネットワークといった基本要素も引き続き用いられる。学習時の計算式をわずかに調整するだけで導入でき、DQNの拡張手法の一つとして他の改良技術と組み合わせて利用されることが多い。