読み方 : ヨーロー
YOLO【You Only Look Once】
概要

従来のR-CNN系列の手法では、物体検出を「領域提案」と「分類」の二段階に分けて行っていたが、YOLOは物体検出を単一の回帰問題として定式化した。入力画像を一定数のグリッド(マス目)に分割し、各グリッドがその領域内に存在する物体の位置、サイズ、信頼度、クラス確率を同時に予測する。画像全体を一度ネットワークに通すだけで検出結果を得ることができる。
GPUを用いた並列計算と組み合わせることで非常に高いフレームレート(1秒あたりの処理枚数)を達成し、撮影した画像をリアルタイムに処理する用途に適している。推論速度が高速なだけでなく、画像全体のコンテキストを考慮した推論を行うため、背景と物体を誤認しにくいという利点もある。
初期のYOLOは小さな物体や密集した物体の検出精度に課題があるとされていたが、後継の改良版ではネットワーク構造や学習手法の改善が進められ、精度と汎用性が向上している。監視カメラ映像の解析や自動運転支援など、高速性が求められる場面で広く利用されている。