セマンティックセグメンテーション【semantic segmentation】

概要

セマンティックセグメンテーションとは、コンピュータによる画像認識の手法の一つで、画像中の各画素に対して意味的な分類クラス)を特定すること。画像全体を画素単位で正確に分割し、物体の形や境界を厳密に特定することが可能になる。自動運転における空間把握や医用画像の解剖学的構造の把握などに応用される。
セマンティックセグメンテーションのイメージ画像

画像認識には物体認識物体検出などのタスクがあるが、セマンティックセグメンテーションは画素単位という最も細かい粒度な被写体を理解する手法である。例えば、道路、建物、人、空といったクラスを定義し、画像中のすべての画素をいずれかのクラス分類する。同一クラスに属する複数の物体が存在する場合でも、それらは区別されずまとめて扱われる。物体の種類や領域構成を把握することに重点が置かれる。

技術的な仕組みとしては、深層学習を用いたエンコーダデコーダ構造が一般的である。まず、畳み込み層によって画像から重要な特徴を抽出し(エンコード)、その後に縮小された情報を元の画像サイズに復元する(デコード)という工程によって、画素ごとの分類結果を出力する。代表的なモデルとしてU-NetDeepLabなどがよく知られている。

セマンティックセグメンテーションでは個体の識別と分離は行わないため、密な群衆の画像は人間を一つの塊として塗り分ける。一方、物体検知と画像セグメンテーション手法を組み合わせ、同じクラスの個体(インスタンス)を識別してそれぞれ別の物体として出力するタスクは「インスタンスセグメンテーション」(instance segmentation)という。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。