インスタンスセグメンテーション【instance segmentation】
概要

画像認識の手法のうち、画像に含まれる個々の物体の種類と位置を特定することを「物体検出」(object detection)、画像上での物体の境界を画素(ピクセル)単位で特定することを「画像セグメンテーション」(image segmentation)という。インスタンスセグメンテーションは両者を合わせて実行し、画像に何が写っているかを特定し、各々の占める領域を画素単位で特定する。
インスタンスセグメンテーションでは、同じ分類(クラス)の対象が複数写っている場合、これを個体(インスタンス)単位で識別して別々の物体として特定する。例えば、道路に複数の歩行者がいる場合、類似タスクの「セマンティックセグメンテーション」(semantic segmentation)ではすべての歩行者を一つの塊として認識するが、インスタンスセグメンテーションでは一人一人を独立した物体として切り分け、それぞれのシルエットを正確に描くことができる。
このタスクを実現するため、物体検出によって得られた候補領域ごとに詳細な領域推定を行う手法や、検出と分割を同時に学習する統合的な手法が提案されている。代表的なモデルには「Mask R-CNN」があり、畳み込みニューラルネットワークを用いて特徴を抽出し、各インスタンスに対応するマスクを生成する。