読み方 : ベイズとうけい

ベイズ統計【Bayesian statistics】

ベイズ統計とは?

事前の知識や経験を確率として数値化し、新たな観測データが得られるたびにその確率を更新していく統計的推論の枠組み。不確実な状況での判断や予測に用いられ、データサイエンス機械学習の分野で広く応用されている。
ベイズ統計のイメージ画像

伝統的な統計学の枠組みである「頻度主義統計」では、確率は無限に試行を繰り返したときの相対的な頻度として定義され、未知のパラメータは固定した真の値を持つと仮定する。これに対して、ベイズ統計では確率を観測者がある命題をどの程度確からしいと考えるかという主観的な信念の表現として扱い、パラメータそのものを確率分布として表現する。

この枠組みの核心となるのは「ベイズの定理」である。観測前に持っている確率を「事前確率」、観測後に導かれる確率を「事後確率」と呼び、この定理によって「事前確率×新たな証拠の尤度=事後確率」という形で推論が進む。データが追加されるたびに事後確率が次の事前確率となり、繰り返し更新されていく。

データが少ない状況でも推定を開始できるため、十分な標本数を確保しにくい医療研究や品質管理に適している。また、連続的にデータが蓄積される環境との相性が良く、迷惑メール判定、画像認識、需要予測、異常検知など広範な場面で応用されている。迷惑メール判定では、過去の分類実績を事前確率として設定し、新着メールの内容をもとに確率を更新することで精度を高めていく「ナイーブベイズ分類器」が用いられる。

一方、事前確率の設定が推定結果に影響するため、どのような事前知識を採用するかが分析の質を左右する。また、事後確率の導出には複雑な積分が伴うことが多く、長らく計算上の障壁があった。マルコフ連鎖モンテカルロ法などのサンプリング手法とコンピュータの性能向上により実用的な問題への適用が進み、研究や産業応用の両面で広く利用されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。