読み方 : ピーエスピーネット
PSPNet【Pyramid Scene Parsing Network】
概要
PSPNetとは、画像認識に用いられるニューラルネットワークの一つで、画像の文脈情報を広範囲に捉えることで、高精度なセマンティックセグメンテーションを実現するモデル。「ピラミッドプーリング」と呼ばれる特殊な情報集約の手法を用いる。

従来の畳み込みニューラルネットワーク(CNN)では、画像の一部分のみを見てクラスを判定しようとするため、例えば、水面の上の物体がボートなのか車なのかといった、周囲の状況に依存する判断で誤りが発生しやすかった。PSPNetは局所的な特徴だけでなく画像全体の構造や物体間の関係を捉えて誤認識を緩和する。
基盤となるネットワークとしてResNetなどのCNNが利用し、特徴抽出後にピラミッドプーリングモジュールが適用される。これは1×1、3×3、6×6など異なるサイズの領域でプーリングを行い、広域から局所まで複数の受容野を持つ特徴表現を生成する。
このピラミッド構造によって得られた様々なスケールの特徴マップは、最終的に元の特徴マップと結合される。これにより、モデルは画像全体を俯瞰した「マクロな視点」と、物体の細部を見る「ミクロな視点」を同時に保持したまま、各画素のクラスを予測することができる。
PSPNetは他のモデルに比べシーン全体の理解を重視する設計となっているため、都市景観の解析や屋内環境の認識など、多様な物体が混在する複雑な画像において特に高い認識精度を発揮するとされる。文脈理解が必要となる画像セグメンテーション用途で応用されている。