読み方 : あかいけじょうほうりょうきじゅん
赤池情報量規準【AIC】Akaike Information Criterion
概要
モデルと過適合
統計的推論や機械学習を行う際には、対象をどのようなモデルで表すかが問題となる。モデル構築に用いる標本や学習データの傾向を的確に反映させたければ、パラメータ数や次数を再現なく増やしていけば、いくらでも適合度を高めることができる。
しかし、そのようなモデルは標本や学習データに含まれるノイズや偏りなども完全に反映してしまい、実際の入力値に対して的外れな値を出力してしまうことがある。このように、モデル構築の際に与えたデータに過剰に適合しすぎて、本来データが体現する傾向から外れてしまう状態を「過適合」「過学習」(overfitting)という。
情報量規準
良いモデルを選択するためには、与えられたデータに対する適合度を高めつつ、過剰に適合し過ぎないようシンプルさを維持するという、相反する二つの要因を同時に考慮する必要がある。これを表す定量的な指標が情報量規準で、「適合度の高さ」と「複雑さに対するペナルティ」という二つの項目を組み合わせてモデルを評価する。
AICとは
赤池情報量規準は1971年に統計数理研究所の赤池弘次氏が提唱した規準で、モデルの最大尤度と呼ばれる値 L の自然対数と、独立したパラメータの数 k を用いて として与えられる。この値が低いほど良いモデルとされ、複数のモデル候補のAICを算出して最も低かったものを採用する。
第1項はデータによく当てはまるほど小さくなるが、第2項はパラメータが増えるほど大きくなり、複雑さに対するペナルティとして機能する。「情報量規準」という概念の元祖となった指標で、統計解析や機械学習を用いる様々な分野でモデル選択の規準として広まった。その後の研究で、BICやCIC、DIC、EICなど様々な規準が考案されている。
(2025.11.16更新)
