デュエリングネットワーク【dueling network architecture】
概要
デュエリングネットワークとは、深層強化学習におけるニューラルネットワーク構造の一つで、状態そのものの価値と、その状態で各行動をとることの優位性を分離して推定するもの。

従来のDQN(Deep Q-Network)などの手法では、一つのネットワークを用いて、特定の状態である行動を選択した際の価値である「Q値」を直接出力する。しかし、現実の学習課題ではどの行動を選択しても結果が大きく変わらない局面が多数あり、推定が不安定になりやすい難点があった。
デュエリングネットワークでは、ネットワークの内部で、その状態にいること自体の価値を表す「状態価値関数」と、各行動が平均的な行動に比べてどれだけ優れているかを示す「アドバンテージ関数」の二つの流れに分割して計算を行う。最終的にこれらを統合してQ値を算出する。行動選択に依存しない状態の良し悪しを明示的に学習できる。
この手法では、状態価値のみを更新すれば、その状態におけるすべての行動の評価を一括で修正できる。不必要な探索を減らし、少ないデータからでも安定して精度の高い価値推定を行うことが可能となる。特に、行動の選択肢が多いタスクや、特定のタイミングでしか重要な決定が生じないような環境において有用である。