読み方 : ぶったいけんしゅつ
物体検出【object detection】
概要

物体検出は「どこに」「何が」「いくつ」存在するかを判別して答えるタスクである。まず、物体の位置を特定する「位置特定」を行い、物体を囲む長方形の枠であるバウンディングボックス(境界枠)の座標として出力する。次に、各枠内に映っている物体が、あらかじめ定義された分類(クラス)のどれに該当するかを判定する「クラス分類」を行う。
初期には色や形状の特徴を人間が定義する手法が用いられたが、現在はニューラルネットワークを用いた機械学習システムが一般的である。「R-CSS」や「Fast R-CNN」のように位置の特定と物体の識別を分けて行う「二段階検出」手法と、「Faster R-CNN」や「YOLO」「SSD」のように単一のニューラルネットワークですべての処理を行う「一段階検出」手法に分かれる。
コンピュータの性能向上や機械学習手法の進展で動画像を連続的に処理することもできるようになっており、自動運転における障害物の検知、製造ラインでの不良品検査、防犯カメラによる人物追跡など、リアルタイム性が必要な高度な識別タスクを自動化する基盤技術として広く応用されている。
物体検出は「画像認識」(image recognition)として総称される手法の一つである。画像認識のタスクとしては他に、単に画像に何が写っているのかのみを答える「画像分類」(image classification)や、画素単位でどの物体へ帰属するか判定する「セグメンテーション」(segmentation)、人間のポーズを特定する「姿勢推定」(pose estimation)などがある。