読み方 : ジーピーティーワン
GPT-1【Generative Pre-trained Transformer 1】
GPT-1とは?

モデルの基盤には、米グーグル(Google)社が2017年に提案した「Transformer」構造を採用している。文章中の単語同士の関係や重要度を同時に計算する「アテンション機構」(attention)により、長い文章でも前後の文脈を保ちながら次の単語を予測できる。GPT-1はTransformerのうちデコーダ部分のみを使用する構成をとっている。
従来の自然言語処理では、翻訳や要約、感情分析など用途ごとに専用モデルを個別に学習させる手法が一般的であった。GPT-1では、まず書籍やWebなどの大規模テキストで汎用的な言語知識を獲得する「事前学習」(pretraining)を行い、続いてラベル付きデータによる「ファインチューニング」(fine tuning)で個別タスクへ対応する方法が示された。
事前学習では、文章を左から右へ順に読み取り、次に現れる単語を予測する「自己教師あり学習」を実施する。人手による正解ラベルを大量に用意しなくても学習できるため、インターネット上の大規模データを活用しやすい。この手法により、学習用データが限られる分野でも高い性能を得やすくなった。
パラメータ数は約1億1700万であり、発表当時は複数のベンチマークで高い性能を示した。GPT-1の登場以降、事前学習済みモデルを多用途に転用する考え方が自然言語処理を扱う機械学習分野で急速に広まり、各社の後続モデルではパラメータ数と学習データ量が大幅に増加していった。