読み方 : マスクアールシーエヌエヌ

Mask R-CNN

概要

Mask R-CNNとは、畳み込みニューラルネットワークを用いて物体検出を行うR-CNNを改良したモデルの一つ。画像中の物体を検出すると同時に、各物体の領域を画素単位で推定する「インスタンスセグメンテーション」を同時に実行することができる。
Mask R-CNNのイメージ画像

R-CNNの派生モデルである「Faster R-CNN」を基盤として拡張されたモデルである。まず、畳み込みニューラルネットワークCNN)により画像全体から特徴マップを抽出し、RPN(Region Proposal Network)と呼ばれる小規模ネットワークによって物体候補領域が生成される。

各候補領域に対して物体の識別(分類)とバウンディングボックス回帰による位置の調整を行う点はFaster R-CNNと共通しているが、Mask R-CNNではこれに加えて各物体のマスクを予測する分岐が追加されている。この分岐では、候補領域ごとに小さな畳み込みネットワークを適用し、物体内部の画素を二値的に分類する。マスクデータは特定の対象の正確な切り抜きや輪郭抽出などに利用できる。

特徴的な技術として、「RoI Align」と呼ばれる領域特徴の抽出手法がある。Faster R-CNNの「RoIプーリング」では量子化誤差が生じやすく、画素レベルの精度が求められるマスク推定には不利であった。RoI Alignでは、特徴マップ上の座標を小数点以下の精度で扱う。補間によって正確な位置合わせを行うことで、空間的なズレを抑えて境界の滑らかなマスク推定を行う。

Mask R-CNNは、一つのモデルで分類、位置推定、マスク推定という複数のタスクを同時に学習することができ、マルチタスク学習の成功例の一つとしてもよく知られている。写真から特定の人物だけを切り抜く処理や、医療画像における腫瘍の正確な輪郭抽出など、精密な画像解析が必要な用途に応用することができる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。