読み方 : ティーエフアイディーエフ

TF-IDF【Term Frequency-Inverse Document Frequency】

概要

TF-IDFとは、文書中に出現する単語の重要度を評価するための統計的な指標の一つ。単語の出現頻度と文書集合全体での希少性を掛け合わせたもので、その文書を特徴づける重要なキーワードを抽出することができる。
TF-IDFのイメージ画像

「TF」(Term Frequency)は、特定の文書の中にその単語がどれくらい頻繁に現れるかを示す指標である。「IDF」(Inverse Document Frequency)は、対象となる文書群全体の中でどれほど珍しいかを示す指標である。多くの文書に共通して現れる単語の価値を低く見積もり、特定の文書にしか現れない専門用語や固有名詞などの価値を高く評価する。

TF-IDFはこのTFとTDFを掛けた値で、単語の文書内の出現頻度が高いほど、また、出現する文書が少ないほど大きくなる。出現頻度だけで重要性を評価しないのは、日本語であれば助詞の「を」や助動詞の「です」、英語であれば冠詞の「the」のように、文書の特徴とは無関係にその言語の文章であれば必ず高頻度で現れる単語が存在するためである。希少性の指標を併用することで、その文書にだけ特徴的に現れる単語を高く評価することができる。

TF-IDFによって文書は単語の「重み」の集合として表現され、文書同士の類似度を計算したり、検索結果の順位付けするといった、意味や内容に基づく比較・評価を行うことが可能となる。計算が比較的容易で、結果の解釈もしやすい。一方で、語の並びや文脈、意味的な関係性は直接考慮されないため、表現の違いによる意味の近さを捉えることは難しい。

TF-IDFは自然言語処理の様々なタスクで基本的な指標として活用されている。情報検索では、検索語と文書のTF-IDFベクトルを比較することで、利用者の要求に近い文書を抽出する仕組みを構築することができる。テキストマイニングでは文書における重要なキーワード抽出に応用されている。近年では、機械学習モデルで文書分類やクラスタリングなどを行う際、モデルに入力する特徴量の一つとしてTF-IDFを用いることがある。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。