読み方 : きょうきご
共起語【co-occurrence word】共起キーワード
共起語とは?

単に同じ文書に含まれる語を指す場合もあれば、一定範囲内に近接して出現する語を対象とする場合もある。文単位、段落単位、数単語以内など、分析の目的に応じて共起の範囲を定義して集計する。大量の文書を対象に出現頻度を調べることで、特定の語と関係が深い単語群を抽出できる。
共起の強さを測る際には、単純な出現回数だけでなく統計的な関連度が用いられる。「の」「しかし」など、頻繁に現れる一般語は多くの語と共起しやすいため、そのままでは特徴を捉えにくい。偶然の一致を除外して結びつきの強い語だけを特定するために、相互情報量などの指標で補正を行う。
自然言語処理では、語の意味は周囲に現れる語によって特徴付けられるという考え方に基づき、共起情報から単語同士の類似性を計算する手法が広く使われている。「Word2Vec」や「BERT」に代表される単語埋め込み技術も、大量のテキストから共起パターンを学習することで、意味的に近い語をベクトル空間上の近い位置に配置する。
検索エンジンでは、ページの主題を判定する際に主要キーワードの周辺にある共起語を分析する。また、利用者が入力する語と共起しやすい単語を手掛かりに、検索候補や関連検索語を生成することも行われている。マーケティング分野では、商品名と共起する語を分析することで、消費者が価格、品質、使いやすさなどのどの要素に関心を向けているかを読み取る用途がある。辞書作成や翻訳支援でも、「『強い雨』とは言うが『重い雨』とは言わない」といった語の自然な組み合わせを調べるために共起語の情報が利用される。