読み方 : ぶんさんひょうげん

分散表現【distributed representation】単語埋め込み

別名  :word embedding/埋め込み表現/embedding

概要

分散表現とは、自然言語処理において、単語やフレーズを低次元の密な実数ベクトルで表現する手法。単語の意味を複数の次元に分散させて数値化することで、単語同士の意味的な近さを数値として捉えることができる。
分散表現のイメージ画像

従来の自然言語処理では、単語を独立した識別子として扱う「ワンホットベクトル」(ワンホット表現)が主流だったが、単語同士の意味の近さを計算することは困難だった。これに対し、分散表現は「似た文脈で現れる単語は似た意味を持つ」という「分布仮説」に基づいて単語を数値列で表現する。

例えば、「りんご」と「みかん」は、周囲に「食べる」「果物」といった共通の単語が現れやすいため、ベクトル空間上で近い位置に配置されるようになる。単語を固定長のベクトルとして表現することで、単語間の距離や角度からその類似度を客観的に測定することが可能となる。

分散表現の構築には、主にニューラルネットワークを用いた学習モデルが利用される。代表的な手法として「word2vec」や「fastText」、さらに発展した「Transformer」ベースのモデルが知られており、膨大なテキストデータから各次元が持つ潜在的な意味を自動的に学習する。単語レベルに限らず、文や段落、文書全体に拡張することも容易である。

分散表現として得られたベクトルは単語の意味的な側面が反映された数値列となっているため、意味の足し算や引き算といった演算が可能になる。例えば、「『王』から『男』を引き、『女』を足す」という計算を実行すると、「女王」という結果を返す。これは単語の概念的な関係がベクトル空間上の方向や距離として保存されていることを示している。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。