読み方 : ワードトゥーベック

word2vec【word to vector】

概要

word2vecとは、単語を意味的な特徴を持つ数値ベクトルとして表現する手法。大量のテキストデータから単語の意味を学習し、高次元のベクトル空間上の数値として表現する。単語を固定長のベクトルに変換することで、言葉同士の類似度や関係性を計算することができるようになる。
word2vecのイメージ画像

従来の自然言語処理では、単語を独立した記号として扱うことが多く、語と語の意味的な近さを直接表現することは難しかった。word2vecでは、実際の文例データをもとに単語がどのような文脈で使われるかを調べ、周囲の単語との共起関係から低次元のベクトルを学習する。意味の近い単語ほどベクトル空間上で近く配置されるため、類似度を数値として表すことができる。

得られたベクトルは数値で表されるため、ベクトル同士の数値演算によって言葉の関係性を「計算」することができる。例えば、「王」を表すベクトルから「男」ベクトルを引き算し、「女」ベクトルを足し算すると、「女王」を表すベクトルが得られる。数値の機械的な計算によって言葉の意味的なアナロジー(類推)が可能となる。ベクトルは単語の意味だけでなく、一定の文法的関係も反映することがある。

主な学習モデルは二つあり、一つは周囲の単語から中心となる単語を予測する「CBOW」(Continuous Bag-of-Words)方式、もう一つは中心の単語から周囲の単語を予測する「スキップグラム」(Skip-Gram)方式である。いずれもニューラルネットワークを用いて学習され、大規模なコーパス(文例データベース)に対して効率的に適用できるよう工夫されている。

word2vecは2013年に米グーグル(Google)社の研究チームによって提案された。機械翻訳感情分析、推薦システムなどの精度が飛躍的に向上し、自然言語処理における単語の分散表現を広く普及させる契機となった。単語の意味を計算できる点は画期的だったが、文脈によって意味が変わる語を一つのベクトルで表現するため多義語の扱いには限界がある。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。