読み方 : ぶったいにんしき
物体認識【object recognition】物体識別/object identification
概要

入力された画像や切り出された領域に対して、あらかじめ定義された分類(クラス)の中から最も当てはまると思われるクラスを推定する。ニューラルネットワークなどを用いた高度な手法では、ソフトマックス関数を用いて「犬80%、猫15%、狸5%」といったように回答の候補と確信度を合わせたベクトルを出力することもある。
初期の手法では、色や形状といった特徴量を人間が定式化して識別器を構成する方式が主流だったが、近年では畳み込みニューラルネットワーク(CNN)などを応用した深層学習(ディープラーニング)が主流である。これは、正解ラベルの付いた画像データを大量に与えて学習させることで、内在する特徴を自律的に見出して分類を行えるようになる。
物体をどのように認識するかによって大きく二つのタスクに分類される。一つは「特定物体認識」で、車の画像から車種を答えるといったように、あらかじめ与えられたデータベースに収録された特定の対象に一致する物体を答えさせる。もう一つは「一般物体認識」で、一般名詞で表されるような概念を学習させ、人間、犬、車といったように写っている物体の種類を答えさせる。
物体認識は「画像認識」(image recognition)として総称される手法の一つである。画像認識のタスクとしては他に、画像内に写っている物体の種類と位置を答える「物体検出」(object detection)や、画素単位でどの物体へ帰属するか判定する「セグメンテーション」(segmentation)、人間のポーズを特定する「姿勢推定」(pose estimation)などがある。