読み方 : ブイキューエー

VQA【Visual Question Answering】視覚的質問応答

概要

VQAとは、画像と自然言語の質問を入力として受け取り、その内容に基づいた回答を生成するタスクのこと。画像認識自然言語処理を組み合わせたマルチモーダル学習の高度なタスクの一つ。
VQAのイメージ画像

まず画像から物体や属性、空間関係といった視覚的特徴を抽出し、同時に質問文の意味を言語モデルによって解析する。これら二つの情報を統合した内部表現を構築し、その結果に基づいて回答を推定する。回答形式は「はい」「いいえ」などの択一や、物体の位置関係といった単語や短文であることが多い。画像認識自然言語処理の両方の精度が結果に大きく影響する。

初期の手法では、画像特徴と質問表現を単純に結合する構成が用いられたが、アテンションAttention注意機構)の導入により精度が大きく向上した。これは質問に関連する画像領域を選択的に参照する手法で、「テーブルの上のカップは何色ですか」という質問に対し、画像全体を漠然と見るのではなく、質問に含まれる「カップ」という単語に呼応して、画像内のカップが位置する領域を重点的に解析する。

VQAは単なる物体の識別を超えて、画像内の状況や関係性の理解を必要とする。視覚障害者向けの周囲環境の説明や、防犯カメラ映像の自動解析、ECサイトにおける商品画像に対する問い合わせ対応など、様々な分野で応用されている。近年では大規模言語モデルLLM)の構築にも用いられるTransformerを基盤とし、画像と文字情報(テキスト)を共通の表現空間で処理するモデルが主流となっている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。