読み方 : エイダデルタ
AdaDelta
概要

機械学習では多変数で非線形の複雑な関数の最適化を行うため、勾配降下法など数値的な解法を用いることがある。これは、ある地点から始めて、関数の値が下がっていく方向を微分値(勾配)を元に判断し、歩幅に相当する「学習率」という値ずつ移動していく手法である。
AdaDeltaは各パラメータについて勾配降下法を実施する際、学習率を用いずに、勾配と過去のパラメータの更新量の履歴から最適な更新量を導き出す。具体的には、過去の勾配の二乗和の平均を同じ期間のパラメータ更新量の二乗和で割って、その回の更新量とする。
二乗和の累積を求める際には、過去の各時点の値を時間経過に応じて指数的に減衰させ、遠い過去の値の影響を排除して直近の値を重視する。先行する「AdaGrad」アルゴリズムでは、学習が進むうちに累積和が単調増加して学習率が減少し続ける問題があったが、AdaDeltaでは指数移動平均を用いることでこの問題を解決している。
先行する「RMSprop」アルゴリズムに似た手法だが、RMSpropでは計算式の両辺の次元が整合していない問題を解消し、同じ次元同士の値から更新量を算出している。AdaDeltaでは学習率の明示的な指定が不要であるため、ハイパーパラメータの調整にかかる時間やコストを節約できる点が最大の利点とされる。
(2025.12.4更新)