読み方 : ふかさたんいぶんりかのうたたみこみ
深さ単位分離可能畳み込み【depthwise separable convolution】
概要
深さ単位分離可能畳み込みとは、畳み込みニューラルネットワーク(CNN)でフィルタによる特徴抽出を行う際、チャネルごとの空間方向の畳み込みと、チャネル間の結合を分離して二段階で行う手法。性能を極力維持しながら計算量を大幅に削減することができる。

ニューラルネットワークの特殊な層の構造である「畳み込み層」は、脳の視覚野にある「単純型細胞」の働きを模したもので、画像のように空間構造を持つデータの中から局所的な特徴を抽出し、その位置を下層に伝える働きをする。
画像解析の場合、縦線、横線、曲線といった画像に含まれる断片的な小さな特徴に対応する「フィルタ」あるいは「カーネル」という小さな行列を用意し、これを画像の左上から右下へ一定の幅で移動しながら、各位置のデータ断片と照合する。全体をスキャンしたら、フィルタの特徴を発見した位置を並べた「特徴マップ」を作成し、下層へ出力する。
カラー画像のように複数のチャネルの重ね合わせで構成されるデータを扱う際、通常の畳み込み処理では、幅×高さ×チャネル数の3次元のフィルタを用意して照合していくが、計算量が大きい難点がある。一方、深さ単位分離可能畳み込みでは、畳み込みをチャネルごと(depthwise)の空間方向と、各点ごと(pointwise)のチャネル方向に分けて二段階で行う。
最初はチャネルごとに平面フィルタを用いて各チャネルのデータに対して空間方向の畳み込みを行い、その出力に対して、今度は1×1×チャネル数のフィルタによってチャネル方向の畳み込みを行う。通常の3次元的な畳み込みと遜色ない結果が得られることが知られており、入力チャネル数が多い場合に特に顕著な計算量の削減効果がある。
(2025.12.5更新)