読み方 : がぞうキャプショニング
画像キャプショニング【image captioning】

一般的な構成では、ニューラルネットワークによる「エンコーダ」と「デコーダ」を組み合わせた機械学習モデルを用いる。まず、エンコーダが画像から物体や背景、配置関係などの視覚的特徴を抽出し、その特徴を反映した自然言語の文章をデコーダが組み立てて出力する。
エンコーダには主に畳み込みニューラルネットワーク(CNN)が用いられ、画像内に何が写っているか、物体同士がどのような位置関係にあるかといった情報をベクトル形式に変換する。デコーダにはLSTM(長・短期記憶)を組み込んだリカレントニューラルネットワーク(RNN)などが用いられ、エンコーダが抽出した情報を手がかりに、単語を一つずつ予測して適切な文を生成する。
近年では、Transformerを基盤とするモデルも採用され、画像と文字情報(テキスト)を共通の表現空間で扱う構成が主流となっている。また、アテンション(Attention:注意機構)の導入により、文章を生成する際、画像のどの部分に注目すべきかを動的に調整することができるようになった。人物や物体、行動などを文脈に応じて適切に参照できるようになり、説明文の正確性と詳細性が向上した。
画像キャプショニングは、視覚障害者のための周囲状況の説明や、キャプションやタイトルなどのメタ情報が整備されていない雑多な画像群に対するキーワード検索、膨大な画像アーカイブに対する自動タグ付け、動画の内容要約など、様々な用途に応用されている。これを基盤に、より高度な視覚的理解を必要とするVQA(Visual Question Answering:視覚的質疑応答)などの技術に発展している。