ベクトルデータベース【vector database】

概要

ベクトルデータベースとは、文字や画像音声などのデータを数値の配列(ベクトル)として格納するデータベース。大量のデータから似た特徴を持つ情報を効率的に抽出できる仕組みを持ち、類似検索や近傍探索を高速に行うことができる。
ベクトルデータベースのイメージ画像

ベクトルデータベースでは、格納するデータを一定の数の数値の列として表す。これは数学におけるベクトルに相当し、個々のデータは要素の数を次元数とする多次元空間の座標として捉えることができる。データ同士の「距離」に相当する値を算出することができ、通常のデータベースでは実装しにくい「似ているデータを探す」「意味が近いデータを探す」といった処理が容易になる。

例えば、画像は特徴量抽出によってベクトル化され、テキストは単語や文の埋め込み表現でベクトルに変換される。利用者が入力した問い合わせも同様にベクトル化され、データベース内のベクトルとの距離や類似度を計算して一致する項目を返す。

距離計算には「ユークリッド距離」や「コサイン類似度」などが用いられ、多次元空間で近いベクトルを効率的に検索するためのアルゴリズムも組み込まれている。インデックス構造や近似近傍探索を用いることで、大規模データでも高速な検索が可能になる。クラウドサービスや専用ライブラリを通じて、数百万から数十億件規模のデータを扱える例もある。

ベクトルデータベースは、画像検索や音声認識自然言語処理などの分野で活用される。例えば、類似した商品画像を探すECサイトの検索機能や、文章の意味に基づいた文書検索、音声から類似音声を抽出する処理などに応用される。従来のリレーショナルデータベースでは扱いにくい高次元データ非構造化データの検索を容易にする技術である。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。