読み方 : コサインるいじど
コサイン類似度【cosine similarity】
概要
コサイン類似度とは、二つのベクトルの向きがどのくらい近いかを測る指標。どの程度同じ方向を向いているかを表す値で、1なら同じ向き、0なら直交、-1なら逆向きを意味する。ベクトルの長さには影響されない。

二つのベクトルの内積(同じ次元の成分同士の積の和)を、それぞれのベクトル長の積で割って求める。これはベクトル同士のなす角θの余弦(cosθ、コサイン値)であり、1なら角度は0°、つまり完全に方向が一致しており、-1なら180°、すなわち完全に逆向きである。0なら90°で、向きが直交している。
指し示す向きが近ければベクトル同士が似ているとみなすことができ、コサイン類似度が正で1に近いほど類似しており、負で-1に近いほど似ていないと考えることができる。多数の元を持つ多次元ベクトルでも容易に算出することができるため、統計解析や機械学習で特徴量ベクトルの類似度を表す指標として標準的に用いられる。
例えば、自然言語処理の分野では単語の出現頻度を用いたベクトル表現のコサイン類似度を用いて文書間の類似性を測ることができる。ECサイトなどのレコメンドシステムでは、利用者の行動やアイテムの属性をベクトルで表し、類似する利用者やアイテムを見つけるために用いられる。多変量解析やクラスタリングの前処理として利用されることもある。
(2025.12.11更新)