読み方 : ビジョントランスフォーマー
Vision Transformer【ViT】
概要
Vision Transformerとは、画像認識に用いられるニューラルネットワークの一つで、自然言語処理で用いられてきたTransformer構造を画像認識へ応用したモデル。畳み込みを用いずに自己注意機構によって画像全体の大局的な関係性を学習する。

従来の画像認識では畳み込みニューラルネットワーク(CNN)が主流であったが、ViTでは画像を正方形の小さな領域であるパッチに分割し、それぞれ一次元のベクトルに変換する。これを位置情報を表す位置埋め込みとともにTransformerエンコーダへ入力する。画像は単語列に類似した形式で扱われ、自己注意機構(Self-Attention)によってパッチ間の関係性が直接モデル化される。
CNNが局所的な特徴から徐々に全体を把握していくのに対し、ViTはネットワークの初期段階から画像全体の情報の依存関係を捉えることができる。畳み込み層のフィルタ(カーネル)のような局所的な受容野に制約されないため、離れた位置にある特徴同士の関係も捉えやすい。
一方、CNNには画像特有の性質である「近接する画素同士の関連性が強い」というバイアスが構造的に組み込まれているが、Transformerにはそのような前提がない。小規模なデータセットでは十分な精度を得ることができない場合があり、精度向上のためには大規模な学習データや事前学習が重要となる。