読み方 : アダム
Adam【Adaptive Moment Estimation】

機械学習では多変数で非線形の複雑な関数の最適化を行うため、勾配降下法など数値的な解法を用いることがある。これは、ある地点から始めて、関数の値が下がっていく方向を微分値(勾配)を元に判断し、歩幅に相当する「学習率」という値ずつ移動していく手法である。
Adamは各パラメータについて勾配降下法を実施する際、勾配の大きさに応じて学習率を動的に変化させる。具体的には、先行する手法である「モーメンタム」で用いられる過去の勾配の平均と、「RMSprop」で用いられる勾配の分散(二乗平均)を求め、前者を後者の平方根で割った値で学習率を増減させる。それぞれの平均の算出には、過去の一定の範囲まで時間経過に応じて減衰する指数移動平均を用いる。開始直後はこれらの値が過小評価される傾向があるため、バイアス補正を行う。
勾配の平均(一次モーメント)は方向情報を提供し、分散(二次モーメント)は勾配の大きさに応じた加減速を行うため、過度に大きな更新を避けつつ、必要な方向へ効果的に進む調整が可能となる。勾配が急激に変動する状況や、スケールの異なるパラメータが混在する状況でも安定した学習を行うことができる。
学習率の調整が自動的に行われるため、事前に手動で細かなチューニングを行う必要がない点もメリットである。様々な構造のモデルで良好な結果が得られるため、多くの深層学習フレームワークに標準実装されており、研究や実験から商用モデルまで幅広く利用されている手法である。
(2025.12.4更新)