読み方：せいそくか

正則化【regularization】

概要

正則化とは、統計解析や機械学習で、モデルが与えられたデータに適合しすぎる過剰適合・過学習を防ぎ、汎用的な予測性能を得るために用いられる手法の総称。モデルの複雑さに一定の制約を加えることで、未知データに対する性能低下を抑える。

回帰分析や機械学習では、モデルを複雑にすればするほど学習データ・標本データへの適合度を向上させることができるが、過剰に適合しすぎて外れ値やノイズ、偏りまで忠実に再現してしまい、未知データに対する予測性能が低下する「過学習」「過剰適合」（overfitting）という問題が生じる。

正則化はこれを防ぐために用いられる手法で、何らかの基準に基づいてモデルの複雑さを測定し、行き過ぎた複雑さに対してペナルティを与えることで、元になるデータへの詳細過ぎる当てはまりを防ぐ。出力と正解の差を測るための誤差関数（損失関数）にペナルティ項（正則化項）を追加するという手法が一般的である。

代表的な手法として、「L1正則化」と「L2正則化」がよく知られる。L1正則化はパラメータの絶対値和に基づくペナルティを課し、不要なパラメータをゼロに近づけることで特徴量選択の効果をもたらす。L2正則化はパラメータの二乗和にペナルティを与え、極端に大きな値を持つパラメータを抑えてモデルの安定性を高める。

回帰分析の場合は、L1正則化を適用した手法を「ラッソ回帰」（lasso regression）、L2正則化を適用した手法を「リッジ回帰」（ridge regression）という。ニューラルネットワークでは「ドロップアウト」のように一部のノードを学習中に無効化する仕組みを正則化として用いることもある。

(2025.12.1更新)