全文検索 【full-text search】 フルテキスト検索 / フルテキストサーチ
文書の検索方法には見出しや著作者、作成日時などの情報を対象にする方法もあるが、全文検索では文書の本文全体を含むすべての文字情報を対象に検索語が含まれるかどうかを調べる。最も網羅性が高いが、検索語の含まれる文書が多すぎて必要な情報になかなかたどり着けない場合もある。
簡易な方法として、対象の文書を端から順に読み込んで検索語が含まれるかどうか調べる方式があるが、対象の数が多いと検索のたびに膨大な時間が必要になるため、あらかじめ各文書に含まれる語を抽出して整列させた索引(インデックス)を用いる方法が一般的である。
欧文のように単語を空白で区切って「分かち書き」する言語圏では、単語や短いフレーズを単位とした索引を容易に作成できるが、日本語のように単語を繋げて記述する言語では文字をどのような単位に分解して索引付けするかが問題となる。
語彙データと文法に基づいて一定の計算手順(アルゴリズム)により文章を単語に分解する手法を「形態素解析」、一定の文字数ごとに機械的に区切って単語の代用とする手法を「N-gram」という。
(2018.11.25更新)