読み方 : アールシーエヌエヌ
R-CNN【Region-based Convolutional Neural Network】
概要
R-CNNとは、ニューラルネットワークのモデルの一つで、画像の中から特定の物体を検出し、その種類と位置を特定するもの。物体検知に畳み込みニューラルネットワークを適用した初期の代表的な手法で、2014年に提案された。

まず、「選択的検索法」(selective search)などのアルゴリズムを用いて、画像中から物体が存在しそうな領域の候補を多数生成する「領域提案」(region proposal)を行う。それぞれの領域を固定サイズに変換し、事前学習済みの畳み込みニューラルネットワーク(CNN)に入力して特徴量を抽出する。
この特徴量を基に、サポートベクターマシン(SVM)によるクラス分類によって写っている物体を識別し、同時に「バウンディングボックス回帰」と呼ばれる回帰モデルを用いて位置補正を行う。こうして、領域提案、特徴抽出、分類の三つの工程を経て、最終的な出力である物体の種類と位置を得る。
CNNを物体検出に適用することで高い検出精度が得られることを示した画期的な手法だが、領域候補ごとにCNNを個別に適用するため、学習・推論ともに非効率であり、計算コストと処理時間の大きさが課題だった。こうした欠点は、後に登場する「Fast R-CNN」や「Faster R-CNN」といった改良モデルによって改善されていくことになる。