AUC【Area Under the Curve】
概要
検査や予測などで、何らかの測定値が基準となる閾値(カットオフポイント)を超えたら陽性、下回れば陰性と判定することがある。その際、陽性と判定したのに実際は陰性だった「偽陽性」(false positive)、陽性と判定したのに実際は陰性だった「偽陰性」(false negative)という2種類の誤判定が発生する。
閾値と誤判定率
ここでは値が高いほど異常の可能性が高い場合を考え、「実際に陽性だった例を正しく陽性と判定できた割合」である「真陽性率」(TPR:True Positive Rate)と、「実際は陽性だった例を誤って陰性と判定した割合」である「偽陽性率」(FPR:False Positive Rate)に着目する。
異常と判断する閾値を極端に高い値(例えば∞)に設定すると、全例を陰性と判定するため、真陽性率も偽陽性率も0となる。一方、閾値を極端に低い値(例えば-∞)にすると、今度は全例を陽性と判定するため、両者ともに1.0となる。閾値を低い方から次第に上げていくと、はじめに真陽性率が上昇し、遅れて偽陽性率が上昇する。
ROC曲線とAUC
この変化の様子を、縦軸を真陽性率、横軸を偽陽性率とする折れ線グラフに描くと、原点と(1.0, 1.0)を結ぶ左上に膨らんだ曲線となる。これを「ROC曲線」(Receiver Operating Characteristic curve)という。
正常と異常を誤りなく見分けられる理想的な検査では、原点から垂直に直線が立ち上がり、(0, 1.0)から(1.0, 1.0)に向かって今度は水平に直線が引かれる。逆に、まったく正しく見分けられない検査では、原点からまっすぐ(1.0, 1.0)に向かう斜めの45°の直線となる。
AUCは、このROC曲線が囲う下側の面積で、検査の良し悪しを定量的に評価することができる。最良の検査では囲まれた部分が正方形となるためAUCは「1.0」となり、最悪の検査では直角二等辺三角形となるためAUCは「0.5」となる。この範囲の中で1.0に近いほど優れた検査であると言える。
