読み方 : セグネット
SegNet
概要
SegNetとは、エンコーダとデコーダから成る畳み込みニューラルネットワークの一つで、画像を解析して画素単位で何が写っているか把握するセマンティックセグメンテーションを行うためのモデル。メモリ効率の良さと境界部分の認識精度の高さで知られる。

入力画像と同じサイズの出力を得るエンコーダ・デコーダ型のニューラルネットワークで、前半のエンコーダ部はVGG系ネットワークを基にした畳み込み層とプーリング層で構成され、入力画像から高次の特徴表現を抽出する。後半のデコーダ部では、抽出された低解像度の特徴マップを元の画像サイズに復元する。
その際、プーリング時に最大値をとった位置を記憶しておく「プーリングインデックス」という仕組みを導入し、記憶された位置情報に基づいて画素を配置すること。物体の輪郭や詳細な形状を低コストかつ正確に復元することができる。最終段では、復元された特徴マップに対して畳み込みを適用し、各画素ごとに帰属するクラス(物体の種類)の確率を算出する。
SegNetはセマンティックセグメンテーションを限られたメモリ容量でも高速に実行できるため、撮影した動画をリアルタイムにセグメンテーションする用途にも適用できる。自動運転における道路状況の把握やロボット制御における視覚システムなどに適しているとされる。