読み方 : じこきょうしありがくしゅう

自己教師あり学習【self-supervised learning】

概要

自己教師あり学習とは、機械学習の手法の一つで、正解ラベルのない学習データから擬似的な正解を自動生成して学習する方式。人間がデータに正解をラベル付けする必要がなく、特徴表現の獲得を目的として行われる。
自己教師あり学習のイメージ画像

通常の教師あり学習は、入力に対して正解となる出力を人間がラベル付けしたデータを学習させるが、学習データを用意するのに高いコストがかかる難点がある。自己教師あり学習はラベルの付いていない大量のデータを用意して、何らかの規則に基づいて擬似的な正解ラベルを生成し、これに正解できるように学習を進める。

例えば、大量の文例データがある場合、文の一部の単語を切り取って伏せたものを入力とし、切り取った単語を「正解」とする。このような「穴埋め問題」を大量に作成して学習させると、その言語の文章における自然な単語の並び方を学んだ自然言語モデルを作成することができる。この手法は、画像の一部を塗りつぶして元の形を推測させるなど、様々な種類のデータに適用することができる。

自己教師あり学習は、対象データの特徴や構造を学ぶ「表現学習」と呼ばれる学習手法の一つで、ここで獲得された対象についての知識は別の具体的なタスクに応用する基礎として利用できる。まず自己教師あり学習で汎用的な特徴を学び、その後に少量のラベル付きデータによる教師あり学習で微調整を行う「転移学習」を組み合わせるのが一般的となっている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。