読み方 : セマンティックけんさく

セマンティック検索【semantic search】

セマンティック検索とは?

コンピュータによる情報の検索手法の一つで、利用者が入力した検索クエリ(問い合わせ文)に含まれる言葉の意味や文脈を解析し、本当に知りたいことを推定して検索結果を返す技術。単語表記の表面的な一致ではなく、意味の近さを基準に情報を探し出す。
セマンティック検索のイメージ画像

従来の検索システムは、入力された単語と文書内の単語を機械的に照合する方式が主流だった。例えば、「風邪の治し方」と入力した場合、この三つの単語がそのままページ内に存在するかどうかを確認し、合致するページを上位に表示する。

この方式は単純で高速だが、同じ意味でも異なる表現が使われている場合に対応しにくい。「発熱のときの対処法」と書かれたページは、単語の一致という観点からは「風邪の治し方」と無関係に見えてしまうからだ。また「デフォルト」のように分野や文脈によって意味が変わる語は、利用者の意図とは異なる結果を返しかねない。

セマンティック検索では、単語の字面ではなく意味の層で情報を処理する。意味を機械的に処理する手法には様々なものが提唱されてきたが、有力な方式に「ベクトル表現」がある。単語やフレーズを数値の列(ベクトル)に変換することで、意味が近いものは多次元空間の中で近い位置に配置される。検索時にはクエリをこの数値列に変換し、空間内で距離が近い文書を探し出せば、意味が近いもの、関連性が高いものを探すことができる。「安いノートパソコン」という問い合わせに対して「低価格のラップトップ」を含む文書も候補に挙がるのは、こうした仕組みによるものである。

2010年代以降、大量のテキストを学習した深層学習モデルが登場したことで、機械が文脈を考慮した意味解析を行えるようになった。「BERT」や「GPT」といったモデルがその代表で、現在の主要な検索エンジンにもこうした技術が取り入れられている。検索対象が大規模になっても高速に類似度を求めるため、専用のデータ構造や検索アルゴリズムが組み合わせて使われることも多い。

セマンティック検索は、企業内の文書検索、ECサイトでの商品検索、カスタマーサポートの自動応答など、様々な用途で応用されている。利用者は専門的な用語を正確に知らなくても、曖昧な言い回しで目的の情報にたどり着ける。一方、意味の近さを基準とするため、必ずしも完全一致の情報が上位に来るとは限らず、用途に応じて従来のキーワード検索と併用されることもある。また、大規模なモデルの学習には多くの計算資源が必要であり、導入・運用コストが課題になる場合もある。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。