読み方 : せいそくか
正則化【regularization】
概要

回帰分析や機械学習では、モデルを複雑にすればするほど学習データ・標本データへの適合度を向上させることができるが、過剰に適合しすぎて外れ値やノイズ、偏りまで忠実に再現してしまい、未知データに対する予測性能が低下する「過学習」「過剰適合」(overfitting)という問題が生じる。
正則化はこれを防ぐために用いられる手法で、何らかの基準に基づいてモデルの複雑さを測定し、行き過ぎた複雑さに対してペナルティを与えることで、元になるデータへの詳細過ぎる当てはまりを防ぐ。出力と正解の差を測るための誤差関数(損失関数)にペナルティ項(正則化項)を追加するという手法が一般的である。
代表的な手法として、「L1正則化」と「L2正則化」がよく知られる。L1正則化はパラメータの絶対値和に基づくペナルティを課し、不要なパラメータをゼロに近づけることで特徴量選択の効果をもたらす。L2正則化はパラメータの二乗和にペナルティを与え、極端に大きな値を持つパラメータを抑えてモデルの安定性を高める。
回帰分析の場合は、L1正則化を適用した手法を「ラッソ回帰」(lasso regression)、L2正則化を適用した手法を「リッジ回帰」(ridge regression)という。ニューラルネットワークでは「ドロップアウト」のように一部のノードを学習中に無効化する仕組みを正則化として用いることもある。
(2025.12.1更新)