ストップワード【stop word】
ストップワードとは?

文書内に多数出現するものの、内容の識別にほとんど寄与しない語を指す。例えば、「東京の天気」と「大阪の天気」を比較したとき、「の」という助詞はどちらにも同じような機能として出現し、それぞれの文を特徴付ける手掛かりにはならない。このような語を処理に含めると計算コストが増加するだけで検索の精度向上には繋がらない。
ストップワードのリストは言語によって異なり、英語では “the” “a” “is” のような冠詞やbe動詞を指定することが多い。日本語では助詞や助動詞、接続詞などが対象になることが多い。どの語をストップワードに指定するかは、利用するシステムや用途によって設計者が調整することもある。
一方、ストップワードの除外が必ずしも適切とは限らない場面もある。例えば、 “To be or not to be” のような慣用句や固有表現を検索する場合、“to” や “be” といった語を除外すると本来の意味が失われてしまう。近年の大規模言語モデル(LLM)を用いた機械学習システムでは文脈を丸ごと扱う手法が普及しており、ストップワードを明示的に除外しない設計も増えている。