読み方 : せんざいてきディリクレはいぶんほう
潜在的ディリクレ配分法 【LDA】 Latent Dirichlet Allocation
概要
潜在的ディリクレ配分法(LDA)とは、与えられた文書群を解析して主題(トピック)を抽出し、文書を主題ごとに分類する手法の一つ。文書の内容に潜在的に含まれる主題を抽出する「トピックモデル」の代表的な手法で、単にトピックモデルと言えばこれを指すことが多い。解説 ここで言うトピックとは、一つの主題を形成していると考えられる、互いに強く関連する単語の集合である。例えば、「散歩」「リード」「しつけ」などの単語が複数の文書に共通して高頻度で現れる場合、これらを「犬」に関連するトピックとしてまとめることができる。
潜在的ディリクレ配分法では、一つの文書は複数のトピックの単語が混在して生成されていると考える。単語自体が複数のトピックにまたがって含まれている可能性があり、トピック内での単語の出現頻度には偏りがあると仮定する。また、ほとんどの文書は一つあるいは少数のトピックのみを含むと考える。
こうした仮定を元に、トピックの数、各文書のトピックの分布、トピック内の単語の分布などをパラメータとして統計的なモデルを構築し、実際の文書群の文字データから逆算して適切なパラメータの値を推定する。推定にはディリクレ分布やベイズ推定、EM法などの統計的な手法が用いられる。
もとは遺伝学で共通のDNA断片を持つ生物群を分類するための手法として考案された。データに含まれるパターンがトピックを形成する構造を持っていれば解析対象はテキストデータである必要はなく、心理学や社会学などにも応用されている。IT分野では、業務システムにおける大量の文書データの自動分類や検索、ネットサービスにおける類似コンテンツの推薦などに応用されている。
(2025.10.9更新)