G検定単語帳 - AIに必要な数理・統計知識
移動平均
時系列に並んだ数値データを平滑化する手法の一つで、ある時点の値を、その値を含む一定期間の平均値で置き換える方式。長期的な推移を分かりやすく表示できるようになる。
例えば、月次データを3か月移動平均で表す場合、4月のデータは2月、3月、4月の3か月分のデータの平均値とし、5月は3~5月の、6月は4~6月の平均といった具合に、枠を移動しながらそれぞれ直近の一定期間の平均を取っていく。
これにより、短期的に生じる大きな変動やノイズ、外れ値などの影響を均し、データの長期的な推移や傾向を明らかにすることができる。これを応用し、直近の過去のデータの平均から将来値の予測を行う手法を「移動平均法」という。
単純/加重/指数
単に移動平均という場合は各データの単純平均を取る「単純移動平均」(simple moving average)を指すが、時間の経過に応じて過去のデータの影響を割り引くように係数を掛け合わせて平均する手法を「加重移動平均」(weighted moving average)という。さらに、係数が経過時間に対して指数関数的に減少していくよう調整する手法を「指数移動平均」(exponential moving average)という。
後方/中央/前方
平均を取る区間について、当該データを先頭に過去のデータのみを組み合わせる手法を「後方移動平均」、当該データを中心に過去と未来を同じ期間ずつ組み合わせる手法を「中央移動平均」、当該データを末尾に未来のデータのみを組み合わせる手法を「前方移動平均」という。
現在(直近)のデータを扱う場合は未来のデータが未定のため後方移動平均を用いるのが一般的だが、過去のデータの分析などでは中央移動平均や前方移動平均を用いたり、これらを併用したり比較することもある。
確率分布
確率的に起きる事象について、どの確率でどの事象が起きるかをすべての事象に渡って明らかにしたもの。表や関数の形で表すことができる。
確率的に値が決まる確率変数について、値と確率の関係を対応付けたものである。最も単純な例では、表裏が等確率で出るコインを投げたとき「表の確率は、裏の確率は」が確率分布となる。
これは、コインを投げたときの確率変数をX、表を0、裏を1という値に対応付けて、確率分布Pを関数の形で といったように表すこともできる。
コインの表裏やさいころの目のような離散的な事象の場合は、確率分布を表す関数を確率質量関数という。一方、時間や長さのように値が連続になるような事象について確率を求める場合は、ある値についてその出やすさを相対的な数値の高低で表す確率密度関数を用いる。
さいころの目のように、どの事象も等確率で起きる(偏りなく完全にランダムに起きる)ような分布を「一様分布」という。世の中の様々な事象の中には、生起確率の偏り具合に一定の法則性が見られるものがあり、正規分布、二項分布、ポアソン分布、指数分布など様々な確率分布が研究されている。
確率変数
サイコロの出目のように確率的に値が決まる変数。何らかの試行の結果、生じた事象に応じて対応する値に定まる。
サイコロを振ったときに出る目の値を変数Xと置いたとき、このXが確率変数にあたる。Xは1、2、3、4、5、6のいずれかの値を取り、それぞれの値が出る確率は等しく となる。これを のように記述することがある。
サイコロの出目やコインの表裏、宝くじの当選番号のように、飛び飛びの値(可算個あるいは有限個)が出るような変数を「離散型確率変数」、長さや重さ、時間のように、連続的な値を取るような変数を「連続型確率変数」という。離散型確率変数の値と確率を結びつける関数を「確率質量関数」、連続型確率変数のそれを「確率密度関数」という。
試行の性質により、値が出る確率に偏りや一定の法則性が生じることがあり、偏り具合を「確率分布」という。サイコロのようにどの値も出る確率が等しい分布は「一様分布」というが、人間集団の身長の分布は平均付近が多く、両端に向かって緩やかに減っていく「正規分布」に従うことが知られる。他にも二項分布やポアソン分布など様々な分布が発見されている。
確率密度
確率的に値が決まる連続値の変数があるとき、ある値の相対的な出やすさを表したもの。変数が連続値を取ると、ある特定の値になる確率はゼロになってしまうため、その値の出やすさを相対的な数値の大小で表す。
サイコロの出目の確率のように、確率変数が特定の選択肢から一つを選ぶような離散的な値の場合には、「1が出る確率は6分の1」といったように各値が出る確率そのものを数値として表すことができる。
しかし、時間や長さ、面積など、値が連続的に変化するような確率変数の場合、ある特定の値(ぴったり)が出る確率は厳密にはゼロになってしまうため、「その値が他の値に比べてどれくらい出やすいか」を確率密度という値の大小で示す。
通常、確率密度は確率変数に対する関数の形で定義され、これを「確率密度関数」という。特定の確率変数の値を代入すると対応する確率密度が得られ、その値がどのくらい出やすいかを示す。確率密度の値は0(まったく出ない)または正の実数となり、確率密度関数を確率変数の定義域全体に渡って積分すると、全事象の確率である1となる。
疑似相関
二つの事象の間に相関が見られるが、因果関係は存在しない状態のこと。両者とも共通の原因の結果である場合などに生じる。
二つの事象AとBの傾向に相関が認められる場合、両者に因果関係があり、原因Aによって結果Bが生じている、あるいはその逆であることが疑われる。しかし、AもBの共通する原因X(潜伏変数あるいは交絡因子という)の結果である場合、AとBの間に因果は無い。このような関係を疑似相関という。
例えば、月ごとのリップクリームの売上と火災の発生件数に強い相関が認められたとして、リップクリームが火災の原因になったり、火災がリップクリーム購入の動機になっているのかというと、そうではなく、「季節による湿度の変動」という共通の原因によって両者に同じ傾向の変動が起こっているだけである。
期待値
サイコロや宝くじのようにある確率に従って様々な値が得られる試行で、1回の試行で得られる値の平均値。
試行を何度も繰り返したとき、結果を平均するといくつになるかを表したもので、値と値が出る確率の積をすべて足し合わせて求める。例えば、サイコロの1から6が出る確率はすべて で等しいため、期待値は と求めることができる。
賭け事では期待値は得られる儲けの平均額と考えることができる。事業として行われている現実の賭け事では胴元の手数料が差し引かれるため、期待値は負の値(平均的には損をして終わる)となることがほとんどである。
一般に、期待値や近い値が最も出現しやすいとは限らない。例えば、宝くじを等級(一等~末等、はずれ)ごとの獲得額と出現確率で考えると、結果が期待値に近くなる「はずれ」が最も出やすいが、サイコロの出目は期待値が3.5だからといって3と4が最も出やすいわけではない。
帰無仮説
統計的仮説検定において、従来の理論や前提が正しいとする仮説。検定に当たって便宜上立てられる仮説で、今回集めたデータがこの仮説を覆すことができるかどうかを検定手順に従って確かめる。
「効果がない」「差がない」「関係がない」といった状況を前提とする仮説で、観測されたデータに含まれているように見える効果や差、関係は偶然生じただけだと考える。一方、研究者がデータを通じて主張したい仮説は「対立仮説」(alternative hypothesis)と呼び、「効果がある」「差がある」「関連がある」ことを前提とする仮説である。
一般的な統計的検定では、帰無仮説が正しいと仮定したときに、今回得られたデータが偶然生じる確率を計算する。算出された確率値(p値)が非常に小さければ、この結果が偶然生じたと考えるのは無理があることになり、帰無仮説は棄却され対立仮説が採択される。偶然ではないと判断する基準(閾値)を「有意水準」と呼び、通常は1%や5%が用いられる。検定の結果は有意水準と共に「帰無仮説は危険率5%で棄却された」といったように表現する。
例えば、新薬が疾患に効果があるかを症例データを集めて検証したい場合、帰無仮説は「新薬には効果がない」で、対立仮説は「新薬には効果がある」となる。新薬には効果がないと仮定したときに、新薬の投与によって症状が改善した症例数が偶然生じる確率を算出する。これが有意水準を下回り、例えば確率0.1%でしか起こらない数だとすれば、得られたデータは帰無仮説よりも対立仮説に対して整合的だと結論づけることができる。
共分散
二つのデータ系列(変数)がどの程度同じように変動しているかを示す指標。変数間の変化の共通性を数量的に表し、値が正であれば同じ方向に、負であれば逆方向に同時に変化しており、0に近ければ変化の仕方に共通点が乏しいことがわかる。
各データ点ごとに、それぞれの変数の平均値との差を乗算し、系列全体に渡って平均することで算出される。数式で表すと となる。i番目のxの平均値との差、yの平均値との差の積を求め、これを系列全体で積算して平均を求める。
あるポイントで二つの変数がともに平均より大きい値を取る場合や、平均より小さい値を取る場合には偏差の積が正となる。逆に、片方が平均より大きく、もう片方が平均より小さいポイントでは積は負となる。積の多くが正の値である系列は共分散も正となり、逆に大半が負である系列は共分散も負となる。両者に連動性が見られない系列ではポイントごとに正負がばらつくため、共分散は0に近い小さい値となる。
注意点として、共分散の絶対値の大きさは変数の単位や尺度に依存するため、異なるデータ系列の共分散の値を比較して、こちらの方がより連動性が強い、といった主張に用いることはできない。変数間の関係の強さを標準化された値として測りたい場合は相関係数など別の指標を用いる。
コサイン類似度
二つのベクトルの向きがどのくらい近いかを測る指標。どの程度同じ方向を向いているかを表す値で、1なら同じ向き、0なら直交、-1なら逆向きを意味する。ベクトルの長さには影響されない。
二つのベクトルの内積(同じ次元の成分同士の積の和)を、それぞれのベクトル長の積で割って求める。これはベクトル同士のなす角θの余弦(cosθ、コサイン値)であり、1なら角度は0°、つまり完全に方向が一致しており、-1なら180°、すなわち完全に逆向きである。0なら90°で、向きが直交している。
指し示す向きが近ければベクトル同士が似ているとみなすことができ、コサイン類似度が正で1に近いほど類似しており、負で-1に近いほど似ていないと考えることができる。多数の元を持つ多次元ベクトルでも容易に算出することができるため、統計解析や機械学習で特徴量ベクトルの類似度を表す指標として標準的に用いられる。
例えば、自然言語処理の分野では単語の出現頻度を用いたベクトル表現のコサイン類似度を用いて文書間の類似性を測ることができる。ECサイトなどのレコメンドシステムでは、利用者の行動やアイテムの属性をベクトルで表し、類似する利用者やアイテムを見つけるために用いられる。多変量解析やクラスタリングの前処理として利用されることもある。
最小二乗法
調査や測定から得られたデータ系列を関数でモデル化する際、関数による理論値と実際の値の誤差の2乗の和が最小となるように関数の係数を決定する手法。
2つのデータ系列 があるとき、両者の関係をモデル関数 で表したいとする。最小二乗法は を構成する係数を決定する手法である。
におけるモデル関数の値は である一方、実際の値は であるため、両者の誤差(残差という)は となる。これは他の についても同様である。この残差が全体でなるべく小さくなるようにするため、最小二乗法では各点の残差の2乗をすべて足し合わせ(残差平方和)、理論値と実測値の誤差の分散の推定値を求める。得られた合計値 はモデル関数の係数を変数とする関数の形となるため、これを代数的に解いて各係数の値を決定していく。
具体的な解き方はモデル関数に選択した関数の種類によって異なるが、最も単純に直線的な関係を想定して一次関数 で表した場合、 と の平均 と 、標準偏差 と 、相関係数 を用いて、 、 として表すことができる。
最頻値
値の集団があるとき、各値が出現する回数を数え、最も多く現れる値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
集団の中で同じ値が何回出現するかを調べ、最も多く出現する値が最頻値である。例えば、{ 0, 1, 1, 1, 2 } という値の集合があるとき、この中には「0」が1回、「1」が3回、「2」が1回出現しており、最頻値は3回の「1」となる。
連続値の場合は全く同じ値が繰り返し現れることは稀であるため、度数分布表やヒストグラムを用いて「0以上10未満」「10以上20未満」のように区間を区切って頻度を数え、最も多い区間の中心の値(10~20が最多なら15)を最頻値とする。
最頻値は一つに定まるとは限らない。「0, 1, 1, 2, 3, 3, 4」の場合、最多頻度2回の値が「1」と「3」2つとなり、両者ともに最頻値となる。このように最頻値が複数の場合を「多峰性」(multimodal)の分布、中でも2つの場合を「二峰性」(bimodal)の分布という。最も極端な場合、すべての値が同じ頻度で出現するとすべての値が最頻値となる(最頻値を考える意味がなくなる)。
代表値としては他にも、全体を同じ値に均した「平均値」(average)、順位がちょうど真ん中の値を取る「中央値」(median:メジアン、メディアン)などがある。統計値などがきれいな山型の分布にならない場合には、これらより最頻値で代表させるのが適していることがある。また、平均値や中央値と異なり、「○○という回答が最も多かった」というように数値で表されないデータ(名義尺度)の集計にも適用できるという重要な性質がある。
最尤法
観測されたデータが最も起こりやすいように、確率モデルの未知のパラメータを推定する手法。統計モデルにおける母数推定の基本的手法として広く用いられている。
まず、手元にあるデータが正規分布やポアソン分布など何らかの特定の確率モデル(確率分布)に従うと仮定する。こうした分布には母数、平均、分散などのパラメータがあるが、具体的な値は不明である。どのようなパラメータを選べば分布が手元のデータに最も当てはまるか(尤もらしいか)を推定したい。
そのために、「尤度」という指標を考える。何らかの具体的なパラメータの値のもとで、実際の手元のデータが得られる確率を求め、すべてのサンプルについて掛け合わせた積のことである。これを、パラメータを与えると積が得られる関数(尤度関数)と考え、尤度が最大となるようなパラメータを算出する。
尤度そのものの最大値を直接求めることは難しいため、便宜上、対数を取った「対数尤度」を考え、これをパラメータで微分した導関数の値が0となる頂点を求めるという手順が用いられることが多い。この頂点におけるパラメータの値が、最も手元のデータに当てはまる確率モデルが持つパラメータ(最尤推定量)を表している。
最尤法によって得られた推定値は、データ量が十分大きければ、真の値に非常に近い値となる(一致性)ことや、推定値のばらつきが最も小さくなる(効率性)といった望ましい性質を持つことが知られている。回帰分析や機械学習など様々な分野で標準的な推定方法として利用されている。
条件付き確率
ある事象が起きたという前提のもとで別の事象が起きる確率。確率をより具体的な状況に基づいて評価するために用いられる。
全体の中での起こりやすさではなく、特定の条件が成立している部分集合に限定したときの起こりやすさを表す確率である。例えば、ある集団の中から人を一人選ぶ場合に、すでに「成人である」という条件が分かっているときに「学生である」確率を求めるといった状況である。確率算出の対象となる母集団は成人に限定されるため、条件を課さない場合とは異なる値になる。
事象Aが起こる確率を P(A) 、事象Bが起こる確率を P(B) 、両方が同時に起こる確率を P(A∩B) とすると、Bが起きたときのAの条件付き確率 P(A|B) は で定義される。ベン図で考えると、条件が成立している範囲(Bの範囲)の中でAが占める範囲(全体の中ではA∩Bの範囲)の割合として理解できる。もし事象Aと事象Bが独立であれば、Bが起きてもAの確率は変わらないため P(A|B)=P(A) となる。この関係は事象の独立性を調べる際に有用である。
条件付き確率は医療分野での検査結果の信頼性評価や、機械学習における分類モデルの精度評価など、様々な分野で活用されている。統計的推論の基本的な概念の一つであり、ベイズの定理をはじめとする多くの統計手法の基盤にもなっている。
正規分布
統計学で用いられる確率分布の一つで、平均付近に分布が集中し、平均から乖離するに連れ指数的に頻度が減少していくような分布のこと。自然現象や社会現象の多くがこの分布に従うことが知られており、確率・統計を扱う上で最も重要かつ基本的な分布である。
平均値、中央値、最頻値が同一の左右対称な分布で、横軸が値、縦軸が確率となるグラフに図示すると釣り鐘のように平均付近が大きく膨らんだ形状(ベルカーブという)となる。誤差や個体差など自然に生まれる値のばらつきの多くは正規分布に従って分布する。
ある値xが出現する確率を表す確率密度関数は、平均値μと標準偏差σを用いて 1/√(2πσ)×e-(x-μ)2/2σ2 という式で表される。同じ正規分布でも平均値が異なれば確率が最大になる位置が異なり、標準偏差が異なれば平均への偏り具合が異なる。標本値を線形変換し、平均が0、標準偏差が1になるように調整した分布を「標準正規分布」という。
正規分布の重要な性質として、平均μや標準偏差σの違いによらず、σの倍数で表される区間に値が含まれる確率は常に一定であるというものがある。例えば、平均から標準偏差だけ離れた範囲(μ-σからμ+σまで)に値が含まれる確率は約68.27%、μ±2σの範囲なら約95.45%、μ±3σの範囲なら約99.73%となる。
相関係数
2つのデータ系列どの程度強く連動しているかを表す値。-1から1の間の実数で表され、両者の値の変化が正比例の関係に近いほど絶対値が大きくなり、まったく連動していなければ0に近い値となる。
2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係を「相関」という。一方が増えるともう一方が増える関係を「正の相関」、一方が増えるともう一方は減る関係を「負の相関」という。
相関係数は同じ数の2つのデータ系列から算出される統計量の一つで、-1から1の間の実数を取る。値が0ならば両者に相関はなく、1なら完全な正の相関、-1なら完全な負の相関がある。1または-1のときは両者の関係を という形の一次関数として記述することができる。
相関係数は、同数のデータ系列 と から算出した共分散 とそれぞれの標準偏差 および を用いて として求められる。これは平均 と を用いて下記の式のように表される。
<$Fig:correlation-coefficient|center|false>相互情報量
二つの確率変数がどの程度情報を共有しているかを測る指標。一方の値を知ることで他方に関する不確実性がどれだけ減少するかを数値として表すことができる。
二つの変数XとYの同時分布 P(X,Y) と、それぞれの変数の周辺分布の積 P(X)P(Y) を比較することで算出される。同時確率と周辺確率の比の対数に確率を掛けて、全体にわたって積算したものが相互情報量である。
二つの変数が完全に独立であれば、同時分布は周辺分布の積と等しくなり、相互情報量は0となる。逆に、二つの変数が完全に一致している(一方が決まると他方も完全に決まる)場合、相互情報量は最大となり、その値はそれぞれの変数の情報理論におけるエントロピーに等しくなる。
相互情報量は二つの変数の関連性の強さを客観的に評価する指標として用いられる。相関係数のように線形な関係しか捉えられない指標とは異なり、非線形な依存関係も捉えることができる。統計解析や機械学習の分野で広く応用されており、特徴量選択や、クラスタリングにおけるデータ間の類似度測定などに用いられる。
対立仮説
統計的仮説検定において、研究者がデータによって正しさを証明したい仮説。従来の理論や前提を覆す新しい仮説で、今回集めたデータによって採択すべきか否かを判定する。
「効果がある」「差がある」「関連がある」といった状況を前提とする仮説で、観測されたデータによって主張したい内容を反映した仮説である。一方、従前の理論や前提が正しいとする仮説は「対立仮説」(alternative hypothesis)と呼び、「効果がない」「差がない」「関係がない」ことを表している。
一般的な統計的検定では、帰無仮説が正しいと仮定したときに、今回得られたデータが生じる確率を計算する。算出された確率値(p値)が非常に小さければ、この結果が偶然生じたと考えるのは無理があることになり、帰無仮説は棄却され対立仮説が採択される。偶然ではないと判断する基準(閾値)を「有意水準」と呼び、通常は1%や5%が用いられる。検定の結果は有意水準と共に「帰無仮説は危険率5%で棄却された」といったように表現する。
例えば、新薬が疾患に効果があるかを症例データを集めて検証したい場合、帰無仮説は「新薬には効果がない」で、対立仮説は「新薬には効果がある」となる。新薬には効果がないと仮定したときに、新薬の投与によって症状が改善した症例数が偶然生じる確率を算出する。これが有意水準を下回り、例えば確率0.1%でしか起こらない数だとすれば、得られたデータは帰無仮説より対立仮説の方が整合的だと結論づけることができる。
なお、対立仮説の立て方には、「両側検定」と「片側検定」の二種類がある。両側検定では差があることについて「平均はαと等しくない」といったように方向を特定しない主張を設定するのに対し、片側検定では「平均はαより大きい」あるいは「平均はαより小さい」といったように、特定の方向を持つ主張を設定する。目的に応じて適切な形を選択する必要がある。
中央値
値の集団があるとき、最大値から最小値まで順に整列したとき順位がちょうど真ん中である値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
値を大きい順あるいは小さい順に並べた時、ちょうど真ん中にある値が中央値である。値が偶数個の場合は中央の値が2つになるため、両者の平均値(算術平均)を中央値とする。例えば、「0, 5 ,1, 9, 7」という値の集合がある場合、大きい順でも小さい順でもちょうど3番目が「5」となり、これが中央値となる。
代表値としては値を均した「平均値」(算術平均/相加平均)を用いることが多いが、平均値は極端な値が含まれる場合にその影響を受けやすいという難点がある。例えば、10軒の家があって9軒は車を1台所有しており、残り1軒が11台所有している場合、1軒あたりの平均所有台数は「2台」となるが、実際に2台以上所有しているのは1軒だけである。
このような場合、中央値は5位と6位の中間、すなわち「1台」となり、大半の家が1台のみである実態をよく表している。ただし、時系列の比較などを行う場合、中央値は中央付近の値の動向しか反映しないため、全体の変化の傾向などを表すのには不向きである。
集団の代表値としては平均値、中央値の他にも、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)を用いることがある。先の車の所有台数の例では最頻値も「1台」である。
度数分布
多数のデータを整理する手法の一つで、値を一定の幅ごとに区切り、それぞれの範囲に属するデータの数を集計したもの。データの散らばり具合など全体の傾向を掴むことができ、元の標本群より解析もしやすい。
多数の数値データを分析する際に用いる集計法の一つで、データが取りうる値を均等な幅の区間(これを階級という)に分割し、各階級に属するデータを数える。階級と値の数(度数)を表の形でまとめたものを「度数分布表」、グラフに表したものを「度数分布図」(ヒストグラム)という。
例えば、テストの点数を表にまとめる場合、「0~19点」「20~39点」「40~59点」「60~79点」「80~100点」といった階級に区切り、それぞれに属する人数を数えて「3人」「5人」「7人」「13人」「5人」などのように集計していく。
各階級の中央の値「10点」「30点」「50点」「70点」「90点」を、その階級を代表する「階級値」という。階級の幅は任意に決めてよいが、小さすぎると度数の差がつきにくく、大きすぎると度数の変化が大きすぎて分布の様子が分かりにくくなる。
度数は、階級に属する値の数の絶対値以外にも、その階級の度数が全体に占める割合である「相対度数」、最も低い階級からその階級までの合計である「累積度数」、その階級までの相対度数の累積である「累積相対度数」などを用いることがある。
二項分布
2つの事象のどちらかになる試行を何度も繰り返したとき、片方の事象が出る回数が従う確率分布のこと。例えば、コインを10回投げたとき、表が出る回数とその確率が該当する。
コインを投げたときの表裏のように2つの結果のいずれかが確率的に生じる試行を「ベルヌーイ試行」という。コインの場合は表が出る確率が0.5、裏が0.5だが、一般には均等である必要はなく、片方が出る確率をpとするともう片方が出る確率は1-pとなる。
このような試行をn回行ったとき、確率pで生じる片方の事象(ベルヌーイ試行では便宜上「成功」という)が出る回数Xが何回になるかは確率的に決まり、回数と確率の対応はnとpによって定まる法則性を持っている。このXの確率分布のことを二項分布という。
n回の試行を行って、成功(確率p)がk回、失敗(確率1-p)がn-k回の状態になる確率は pk(1-p)n-k となる。一方、この状態になる場合の数は、n個の結果にk個の成功を当てはめる組み合わせの数であるため、 nCk となる。両者の積が、Xがkとなる確率を表している。
統計解析では、ある条件に当てはまる個体の割合がpである母集団から、n個の標本を無作為に取り出したときに条件に当てはまる標本の数Xの確率分布が、nとpで決まる二項分布となる。この性質を利用して統計的な有意性を判断する検定手法を「二項検定」という。
外れ値
調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れた値のこと。統計処理などの際に一定の基準を設けて除外することがある。
収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしな値になってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。
外れ値を含んだデータをそのまま分析すると、平均値や相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作を行うことがある。
よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値や標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。
なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータの改竄とみなされる可能性があるため値の削除は慎重に行う必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。
標準偏差
統計における指標の一つで、データ群のばらつき具合を表す値。この値が小さいほど平均付近にデータが集まっていることを表し、大きければ平均から外れたデータがたくさんあることを表している。データ自体と同じ次元になるように算出される。
標準偏差は分散の正の平方根で、データが平均値から平均でどのくらい離れているかを表している。算出方法は、各値と平均値の差を二乗した値の和を求め、これをデータの数で割った平均のルートを取る(二乗平均平方根)。
例えば、{10,20,30} という3つの標本の標準偏差は、平均値20を用いて √[{(10-20)2+(20-20)2+(30-20)2}/3] と表され、約8.16となる。{0,20,40} ならば約16.33となり、すべて平均値に等しい {20,20,20} ならば標準偏差は0となる。
分散も散らばり具合を表しているが、元の値と平均の差の二乗の平均であるため、元の値とは次元が異なる。標準偏差はその平方根を取っているため、元の値と同じ次元となり、値自体の大きさと散らばり具合の大きさを同じ尺度で比較することができる。日本では学力試験のいわゆる偏差値を算出するのに用いられている。
平均
値の集団があるとき、全体の量は変えずにすべての値が同じだったらいくつになるかを求めたもの。集団全体の性質を表す代表値として最もよく用いられる。
単に平均値という場合はすべての値を足して個数で割った「算術平均」(相加平均、単純平均)を指す。全体の総和は変わらずすべての値が同じだったらいくつになるかを求めたもので、全体の値の水準を表している。
平均値の算出法として、すべての値(n個)を掛け合わせてn乗根を求めることもある。全体の積が同じですべての値が同じだったらいくつになるかを求めたもので、「幾何平均」(相乗平均)と呼ばれる。他にも調和平均、対数平均、加重平均など様々な算出法がある。
平均値は代表値として最もよく用いられるが、値の分布によっては必ずしも全体の性質を表すのに適さない場合がある。例えば、少数の値が極端に大きい(あるいは小さい)と、その値に引きずられてほとんどの値よりずっと大きい(あるいは小さい)値が平均値となることがある。
他によく用いられる代表値として、大きい順に並べ替えたときに順位がちょうど真ん中の値を求める「中央値」(median:メディアン/メジアン)、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)がある。
分散
分かれて散らばること。確率・統計の分野では、データの散らばり具合を分散という。IT分野では処理やデータを複数の機器などで分担することを分散処理、分散システムなどという。
統計学の分散
統計学では、あるデータ群のそれぞれの値について平均値との差を取って二乗し、その合計をデータの数で割って平均した値(二乗平均)を分散(variance)という。データ群が平均に対してどのくらい散らばっているかを表す指標として用いられる。
例えば、{10,20,30} という3つの標本の分散は平均値の20を用いて {(10-20)2+(20-20)2+(30-20)2}/3 と表すことができ、約66.7となる。{0,20,40} であれば約266.7となり、すべて平均に等しい {20,20,20} ならば分散は0となる。
分散は算出過程で値を二乗しており元の値とは次元が異なるが、分散の正の二乗根を取って次元を揃えた値を散らばりの指標として用いることがある。これを「標準偏差」(SD:Standard Deviation)と呼び、元の値と同じ尺度で散らばり具合を評価することができる。
分散処理
IT分野では、一つの処理やデータ群に対して複数の機器を動員し、分担して処理する方式を「分散処理」(distributed processing)、「分散システム」(distributed system)、「分散コンピューティング」(distributed computing)などという。
このうち、処理の前後関係に従って異なる機能の機器を連結し、それぞれが特定の工程に専念する方式を「垂直分散システム」、同じ機能の機器を並べて処理を振り分け、並行に処理する方式を「水平分散システム」という。一般には後者を指して単に分散システムと呼ぶことが多い。
偏相関係数
二つの変数の間の相関関係(関連の強さ)を、他の変数の影響を除いた上で測る指標。三つ以上の変数が関係する状況で、ある二つの変数の結びつきをより正確に評価することができる。
通常の相関係数(単純相関係数)は二つの変数の値のみを用いて関連性の強さを算出し、他の変数の影響を考慮しないため、第三の(あるいはさらに他の)変数による共通の変動が相関を生じさせている場合には、その関係を正しく理解できないことがある。
例えば、「かき氷の売上」と「水難事故の件数」の間に見かけ上の強い相関関係が算出されたとしても、この二つの間に直接的な因果関係などがあるとは限らず、二つとも「気温」という第三の要因の結果に過ぎない可能性が高いと考えられる。
偏相関係数は、この共通要因を統計的に取り除くことで、対象となる二つの変数間の直接的な関係の強さを抽出する。計算方法としては、それぞれの変数から制御変数(第三の要因)の影響を線形回帰で取り除き、残差を算出する。二つの残差の系列について単純相関係数を計算したものが偏相関係数となる。値の解釈は通常の相関係数と同じで、1に近いほど強い正の相関を、0に近いほど無相関を、-1に近いほど強い負の相関を示唆している。
複雑な多変量データの中から特定の要因の影響を切り分けて議論したいときに有用な指標であり、心理学や教育学、経済学、社会学など人間の行動や社会的な現象を扱う分野では特に重宝される。機械学習の特徴量エンジニアリングでも、変数間の依存関係を調べる手段として活用される。
ベルヌーイ分布
コインを投げたときの裏表のように結果が二種類の試行における変数の確率分布。最も基本的な離散型確率分布で、統計解析や確率論の重要な基礎の一部をなしている。
成功か失敗、表か裏、0か1など、結果が二つの状態のいずれかになるような試行を「ベルヌーイ試行」という。ベルヌーイ分布はこの試行の結果を表す確率変数が取る分布で、パラメータは試行が成功する確率の一つだけである。
便宜上、試行の結果を「成功」と「失敗」で表し、確率変数Xの値は成功のとき1、失敗のとき0とする。成功確率をpとすると失敗する確率は1-pであるため、確率質量関数は P(X=1)=p, P(X=0)=1-p と記述できる。二式をまとめて P(X=k)=pk(1-p)1-k (k=0,1)のように書くこともできる。
極めて単純な確率分布だが、二値の状態を扱う統計理論の基礎として重要となる。例えば、複数回の独立なベルヌーイ試行から構成される分布を二項分布と呼び、様々な統計モデルに応用されている。二値の結果を予測するためのロジスティック回帰分析は、スパムメールの判定など実社会でも広く応用されている。
ポアソン分布
統計学における代表的な確率分布の一つで、ある確率でランダムに起きる出来事が、ある期間内に起きる回数とその確率の関係を表したもの。
例えば、ある県に台風が年平均4回上陸する場合、毎年必ず4回上陸するわけではなく、全く上陸しない年もあれば3回、5回といった年もある。このとき、各々の回数になる確率の分布をポアソン分布という。この例では3回と4回をピークに前後が低くなり、0回や9回以上の確率はほとんど0に近くなる。
平均λ回起きる事象が単位時間にk回起きる確率は、自然対数の底e(ネイピア数)を用いて e-λ λk/k! (!は階乗)という式で表される。λおよびその前後が最も確率が高くなり、λから離れるに従って急激に確率は低くなる山型の分布となる。
マハラノビス距離
多変量データにおける点同士の距離を測る指標の一つ。データ群のばらつき(分散)と、特徴量間の関係(相関)を考慮して、あるデータ点が集団の中心からどれだけ(集団全体の傾向に対して)珍しい位置にあるかを示す。
空間内の直線距離に相当するユークリッド距離は、各特徴量のスケールが異なったり、特徴量間に強い相関があったりする場合、適切にデータ間の隔たりを評価できないという問題がある。例えば、身長と体重のデータがあるとき、身長が平均+10cmで体重が+10kgの人と、身長が平均+10cmだが体重は-10kgの人がいるとき、単純な平均からの距離はそれほど変わらないが、後者の方が集団の傾向から鑑みてより「珍しい」データ点だと解釈されるべきである。
マハラノビス距離は、この「珍しさ」を測るために、データ群から求めた共分散行列(特徴量間の分散や相関を示す行列)を用いて距離を補正する。共分散行列の逆行列を重みとして距離を計算することで、ばらつきの小さい方向への隔たりを大きく評価し、相関によって引き伸ばされている方向の影響を小さくする。これにより、距離が等しくなる点の集合(等距離線)は、ユークリッド距離では円形になるのに対し、マハラノビス距離ではデータの分布に応じて歪んだ楕円形になる。
この距離は、データ群が多次元正規分布に従うと仮定した場合、集団からの逸脱度合いを示す指標として利用され、異常値検出や多変量データのパターン認識などで有効な手法である。クラスタリングや判別分析においても、変数間の相関を踏まえた類似度の指標として利用され、特に特徴量のスケールや相関が複雑なデータに適している。
ユークリッド距離
空間内の二点間の直線的な距離のこと。我々が日常的に思い浮かべる距離の概念を数学的に定義したものだが、平面や3次元空間のような物理的な空間だけでなく、抽象的な高次元空間の距離として用いることもできる。
平面におけるユークリッド距離は、直角三角形の斜辺の長さを求めるピタゴラスの定理によって求めることができ、二点の間のx座標の差の2乗とy座標の差の2乗を足して平方根を取ればよい。3次元空間ではこれにz座標の2乗を加えるだけでよく、さらに抽象的な多次元空間でも二点間の直線的な距離に相当する指標として用いることができる。
統計解析や機械学習の分野では、様々な特徴量を並べた多次元ベクトルで個々のデータ点を表現することがあるが、その近さ(類似度)の尺度としてユークリッド距離を用いることがある。算出が容易で、空間内での直線的な距離として直感的に理解しやすいという利点がある。
ただし、物理空間ではどの成分も長さを表すのに対し、データ解析などの場合は特徴量によって単位や尺度が異なる場合がある。そのまま単純にユークリッド距離を算出すると値のスケールによって各成分の影響度合いに大きな差が付く場合がある。すべての変数を最大値や上限値に対する割合に変換するなど、何らかの標準化処理を行ってから適用するのが望ましいとされる。