モーメンタム【momentum】
概要

機械学習では多変数で非線形の複雑な関数の最適化を行うため、勾配降下法など数値的な解法を用いることがある。これは、ある地点から始めて、関数の値が下がっていく方向を微分値(勾配)を元に判断し、「学習率」という幅ずつ移動していく手法である。
モーメンタムは、物理学における運動量の概念に着想を得ており、現在地点の勾配だけでなく直前の一定期間の勾配を記録しておき、これを加味して学習率を増減させる。過去の勾配を指数的に減衰させながら累積したものを学習率とすることで、谷底へ下る際には加速を促し、底付近で移動方向が左右に目まぐるしく入れ替わる領域では振動を抑えて収束を早める。
特に、小さい勾配が続く平坦な谷や、深い谷が細長く伸びる形状の関数に対しては、標準的な勾配降下法より効率的に最適解へ近づけることが知られ、最適化の速度向上、学習時間の短縮、計算資源の節約に役立つ。また、モーメンタムが「慣性」の働きをするため、浅い谷では停止せずに飛び越えて探索を継続し、局所最適解に陥らず大域最適解に到達できる場合がある。
モーメンタムの挙動は「減衰率」と呼ばれるハイパーパラメータ(事前に決めておく設定値)に依存する。この値が大きいほど、過去の勾配の影響を強く受け継ぎ、より大きな勢いを持つことになる。加速効果と安定性のバランスを調整するための係数である。深層学習では標準的な要素として広く利用され、「Adam」や「RMSprop」などモーメンタムの考え方を発展させた様々な手法も考案されている。
(2025.12.3更新)