読み方 : ブイキューエー
VQA【Visual Question Answering】視覚的質問応答

まず画像から物体や属性、空間関係といった視覚的特徴を抽出し、同時に質問文の意味を言語モデルによって解析する。これら二つの情報を統合した内部表現を構築し、その結果に基づいて回答を推定する。回答形式は「はい」「いいえ」などの択一や、物体の位置関係といった単語や短文であることが多い。画像認識と自然言語処理の両方の精度が結果に大きく影響する。
初期の手法では、画像特徴と質問表現を単純に結合する構成が用いられたが、アテンション(Attention:注意機構)の導入により精度が大きく向上した。これは質問に関連する画像領域を選択的に参照する手法で、「テーブルの上のカップは何色ですか」という質問に対し、画像全体を漠然と見るのではなく、質問に含まれる「カップ」という単語に呼応して、画像内のカップが位置する領域を重点的に解析する。
VQAは単なる物体の識別を超えて、画像内の状況や関係性の理解を必要とする。視覚障害者向けの周囲環境の説明や、防犯カメラ映像の自動解析、ECサイトにおける商品画像に対する問い合わせ対応など、様々な分野で応用されている。近年では大規模言語モデル(LLM)の構築にも用いられるTransformerを基盤とし、画像と文字情報(テキスト)を共通の表現空間で処理するモデルが主流となっている。