トピックモデル【topic model】

概要

トピックモデルとは、テキストデータを解析して主題を抽出し、文書を主題ごとに分類する手法。主題を共有している文書群は内容が似ているとみなすことができ、大量の文書の整理、記事の推薦などに応用することができる。
トピックモデルのイメージ画像

文書は潜在的に何らかの主題(トピック)を含んでいると考える。様々な文書に共通する単語やフレーズの出現頻度などを元に自動的にトピックを発見し、どの文書にどのトピックがどの程度あてはまるかを調べる。機械学習の手法としては、事前に分類の仕方を教えない「教師なし学習」に分類される。

例えば、散歩、リード、しつけなどの単語が高頻度で出現する文書は「犬」に関連するトピックとしてまとめることができる。このようなトピックを形成する単語群を統計的な手法で文書群から抽出し、同じトピックを共有している文書をグループ化(クラスタ化)する。

1980年代に「潜在的意味解析」(LSA:Latent Semantic Analysis)という手法が考案され、これを発展させた「確率的潜在意味解析」(PLSA:Probabilistic LSA)、さらに一般化された「潜在的ディリクレ配分法」(LDALatent Dirichlet Allocation)がよく知られる。近年ではニューラルネットワークを利用した機械学習によってトピックモデルを構築する手法が広まっている。

トピックモデルは遺伝学や心理学、社会学など統計的な分析手法を駆使する学問分野で用いられることがある。IT分野では、業務システムにおける大量の文書の自動整理システムや関連文書の検索システム、ネットサービスにおける大量の記事の自動分類、利用者へ似たコンテンツを推薦するレコメンドシステムなどに応用されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。