読み方 : じこきょうしありがくしゅう
自己教師あり学習【self-supervised learning】
概要

通常の教師あり学習は、入力に対して正解となる出力を人間がラベル付けしたデータを学習させるが、学習データを用意するのに高いコストがかかる難点がある。自己教師あり学習はラベルの付いていない大量のデータを用意して、何らかの規則に基づいて擬似的な正解ラベルを生成し、これに正解できるように学習を進める。
例えば、大量の文例データがある場合、文の一部の単語を切り取って伏せたものを入力とし、切り取った単語を「正解」とする。このような「穴埋め問題」を大量に作成して学習させると、その言語の文章における自然な単語の並び方を学んだ自然言語モデルを作成することができる。この手法は、画像の一部を塗りつぶして元の形を推測させるなど、様々な種類のデータに適用することができる。
自己教師あり学習は、対象データの特徴や構造を学ぶ「表現学習」と呼ばれる学習手法の一つで、ここで獲得された対象についての知識は別の具体的なタスクに応用する基礎として利用できる。まず自己教師あり学習で汎用的な特徴を学び、その後に少量のラベル付きデータによる教師あり学習で微調整を行う「転移学習」を組み合わせるのが一般的となっている。