読み方 : ディープラブ
DeepLab
概要

畳み込みニューラルネットワーク(CNN)の畳み込み層に「拡張畳み込み」(atrous convolution)という手法を利用する。これは、フィルターを適用する領域の間に一定の隙間を空けて適用する方式で、計算量を増やさずに受容野(一度に参照できる範囲)を拡大する。画像が持つ詳細な空間情報を維持したまま、物体全体の文脈を効率的に捉えることができる。
後続のバージョンでは、この技術をさらに発展させた「ASPP」(Atrous Spatial Pyramid Pooling)が採用され、複数の異なる間隔を持つ拡張畳み込みを並列に適用することで、多角的なスケールから物体の特徴を抽出することができる。
また、初期のDeepLabでは「条件付き確率場」(CRF:Conditional Random Field)という後処理技術を組み合わせ、画素ごとの分類結果を周囲との連続性を考慮して補正していた。従来のモデルが苦手としていた複雑な物体の境界線を鮮明に描画することができた。後のモデルではネットワーク内部での表現強化で同様の性能を発揮している。
最初のバージョンは米グーグル(Google)が2016年に発表し、以後活発に改良や派生モデルの開発が行われている。画像内の小さな物体から大きな背景までを同時に高い解像度で認識できるため、同社のスマートフォンのポートレートモードにおける背景ぼかしに用いられているほか、自動運転や衛星写真の解析など高精度な解析を必要とする様々な用途に応用されている。