セマンティックセグメンテーション【semantic segmentation】
概要

画像認識には物体認識や物体検出などのタスクがあるが、セマンティックセグメンテーションは画素単位という最も細かい粒度な被写体を理解する手法である。例えば、道路、建物、人、空といったクラスを定義し、画像中のすべての画素をいずれかのクラスに分類する。同一クラスに属する複数の物体が存在する場合でも、それらは区別されずまとめて扱われる。物体の種類や領域構成を把握することに重点が置かれる。
技術的な仕組みとしては、深層学習を用いたエンコーダ・デコーダ構造が一般的である。まず、畳み込み層によって画像から重要な特徴を抽出し(エンコード)、その後に縮小された情報を元の画像サイズに復元する(デコード)という工程によって、画素ごとの分類結果を出力する。代表的なモデルとしてU-NetやDeepLabなどがよく知られている。
セマンティックセグメンテーションでは個体の識別と分離は行わないため、密な群衆の画像は人間を一つの塊として塗り分ける。一方、物体検知と画像セグメンテーション手法を組み合わせ、同じクラスの個体(インスタンス)を識別してそれぞれ別の物体として出力するタスクは「インスタンスセグメンテーション」(instance segmentation)という。