読み方 : がぞうキャプショニング

画像キャプショニング【image captioning】

概要

画像キャプショニングとは、入力された画像を解析し、その内容や状況を説明する自然言語の文章を生成するタスクのこと。画像認識自然言語処理を組み合わせたマルチモーダル学習の代表的なタスクの一つ。
画像キャプショニングのイメージ画像

一般的な構成では、ニューラルネットワークによる「エンコーダ」と「デコーダ」を組み合わせた機械学習モデルを用いる。まず、エンコーダが画像から物体や背景、配置関係などの視覚的特徴を抽出し、その特徴を反映した自然言語の文章をデコーダが組み立てて出力する。

エンコーダには主に畳み込みニューラルネットワークCNN)が用いられ、画像内に何が写っているか、物体同士がどのような位置関係にあるかといった情報をベクトル形式に変換する。デコーダにはLSTM(長・短期記憶)を組み込んだリカレントニューラルネットワークRNN)などが用いられ、エンコーダが抽出した情報を手がかりに、単語を一つずつ予測して適切な文を生成する。

近年では、Transformerを基盤とするモデルも採用され、画像と文字情報(テキスト)を共通の表現空間で扱う構成が主流となっている。また、アテンションAttention注意機構)の導入により、文章を生成する際、画像のどの部分に注目すべきかを動的に調整することができるようになった。人物や物体、行動などを文脈に応じて適切に参照できるようになり、説明文の正確性と詳細性が向上した。

画像キャプショニングは、視覚障害者のための周囲状況の説明や、キャプションやタイトルなどのメタ情報が整備されていない雑多な画像群に対するキーワード検索、膨大な画像アーカイブに対する自動タグ付け、動画の内容要約など、様々な用途に応用されている。これを基盤に、より高度な視覚的理解を必要とするVQAVisual Question Answering:視覚的質疑応答)などの技術に発展している。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。