読み方 : ディーキューエヌ
DQN【Deep Q-Network】
概要
DQNとは、Q学習と呼ばれる強化学習の手法に深層ニューラルネットワークを組み合わせた機械学習アルゴリズム。複雑で高次元な状態入力を処理することができ、画像入力から直に最適な行動を出力するといった能力を発揮する。

従来の強化学習では、状態と行動の組み合わせをテーブル形式で管理していたため、画像データのような膨大な情報を持つ状態を扱うことが困難であった。DQNは、このテーブルの代わりに深層ニューラルネットワーク(DNN)を用いることで、複雑な状態から行動の価値であるQ値を近似計算することができる。
DQNの学習を安定させるために、二つの重要な仕組みが導入されている。そのうちの一つである「経験再生」(experience replay)は、エージェントが過去に経験した、状態→行動→報酬→次の状態という一連のデータをメモリに蓄積し、ランダムにサンプリングして学習に用いる手法である。データ間の時間的な相関を低減して学習の偏りを防ぐ。
また、ネットワーク内部に学習を行うための「Qネットワーク」と、学習の目標値を算出するための「ターゲットネットワーク」という二つのネットワークを用意し、価値の推定値が急激に変動して学習が不安定になる現象を抑制する。ターゲットネットワークのパラメータは定期的にQネットワークのパラメータによって更新される。
DQNは米グーグル(Google)社傘下のディープマインド(DeepMind)社が2015年に発表した。ビデオゲームの画面入力のみを用いて人間を超える操作精度でゲームをプレイするデモは大きな話題となった。深層強化学習という分野が広く認知されるきっかけとなったモデルの一つとされる。