読み方 : じょうほうけんさく
情報検索【information retrieval】

情報検索の対象は、文書、Webページ、画像、音声など多岐に渡るが、基礎となる考え方は共通している。まず、検索対象となるデータをあらかじめ整理し、検索しやすい形に変換する処理が行われる。文書検索の場合には、単語への分割や正規化を行い、どの文書にどの語が含まれているかを管理する索引(インデックス)が構築される。利用者が検索語を入力すると、その語と関連する文書が索引を用いて高速に抽出される。
抽出された文書群は、そのまま提示されるのではなく、関連度や作成・更新日時など何らかの基準に基づいて順位付けされることが多い。関連度の評価指標としては、検索語の出現頻度や文書全体での重要度、共に出現する確率の高い共起語の数などを算出する統計的手法が用いられてきた。近年では、機械学習を用いて検索結果の順位を最適化する手法や、文書同士の意味的な近さを考慮する手法も用いられる。
検索精度の評価には「適合率」や「再現率」といった指標が用いられ、システムがどれだけ正確に、かつ漏れなく情報を収集できたかが客観的に測定される。情報検索は、インターネット上の検索エンジン、コンピュータ内のファイル検索、企業などの情報システム内の文書検索、電子図書館など、様々な情報システムの基礎的な機能として提供されており、自然言語処理の最も重要な応用例の一つとなっている。