読み方 : ユーネット
U-Net
概要
U-Netとは、エンコーダとデコーダから成る畳み込みニューラルネットワークの一つで、画像を画素単位で何が写っているか把握するセマンティックセグメンテーションを行うためのモデル。エンコーダとデコーダを対称に配置し、対応する層同士を結合する構造を持つ。

入力画像と同じサイズの出力を得るエンコーダ・デコーダ型のニューラルネットワークで、前半のエンコーダ部では、畳み込みとプーリングを繰り返すことで画像の空間解像度を下げつつ抽象的な特徴を抽出する。後半のデコーダ部ではアップサンプリングや転置畳み込みを用いて解像度を回復し、画素ごとの予測を行う。
その際、エンコーダの各段階で得られた特徴マップをデコーダの対応する段階に結合するスキップ接続を利用する。この結合により、位置情報を含む低レベル特徴と意味情報を持つ高レベル特徴が統合され、物体の境界を明確に捉えやすくなる。
もともと医用画像の解析のために考案されたモデルで、U字型のネットワーク構造に由来して「U-Net」と呼ばれ、派生モデルも多数提案されている。少量の学習データでも高精度なセグメンテーションが可能とされ、医療分野に限らず、衛星画像の解析や画像生成AIの内部構造の一部としても利用されている。