ストップワード【stop word】

ストップワードとは?

自然言語処理情報検索において、意味的な寄与が小さいとして、あらかじめ除外対象とされる語のこと。日本語であれば「は」「の」「が」といった助詞などが該当し、検索精度の向上や処理負荷の軽減を目的として設定される。
ストップワードのイメージ画像

文書内に多数出現するものの、内容の識別にほとんど寄与しない語を指す。例えば、「東京の天気」と「大阪の天気」を比較したとき、「の」という助詞はどちらにも同じような機能として出現し、それぞれの文を特徴付ける手掛かりにはならない。このような語を処理に含めると計算コストが増加するだけで検索の精度向上には繋がらない。

ストップワードのリストは言語によって異なり、英語では “the” “a” “is” のような冠詞やbe動詞を指定することが多い。日本語では助詞や助動詞、接続詞などが対象になることが多い。どの語をストップワードに指定するかは、利用するシステムや用途によって設計者が調整することもある。

一方、ストップワードの除外が必ずしも適切とは限らない場面もある。例えば、 “To be or not to be” のような慣用句や固有表現を検索する場合、“to” や “be” といった語を除外すると本来の意味が失われてしまう。近年の大規模言語モデルLLM)を用いた機械学習システムでは文脈を丸ごと扱う手法が普及しており、ストップワードを明示的に除外しない設計も増えている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。