読み方 : ジーピーティーワン

GPT-1【Generative Pre-trained Transformer 1】

GPT-1とは?

オープンAIOpenAI)社が2018年に発表した言語モデル。大量の文字情報(テキスト)を事前に学習させ、その後に個別の用途へ調整する二段階の学習方式を採用した初期の大規模言語モデルLLM)で、後継の「GPT-2」や「GPT-3」、さらには「ChatGPT」へと続く開発の出発点となったモデルである。
GPT-1のイメージ画像

モデルの基盤には、米グーグル(Google)社が2017年に提案した「Transformer」構造を採用している。文章中の単語同士の関係や重要度を同時に計算する「アテンション機構」(attention)により、長い文章でも前後の文脈を保ちながら次の単語を予測できる。GPT-1はTransformerのうちデコーダ部分のみを使用する構成をとっている。

従来の自然言語処理では、翻訳や要約、感情分析など用途ごとに専用モデルを個別に学習させる手法が一般的であった。GPT-1では、まず書籍やWebなどの大規模テキストで汎用的な言語知識を獲得する「事前学習」(pretraining)を行い、続いてラベル付きデータによる「ファインチューニング」(fine tuning)で個別タスクへ対応する方法が示された。

事前学習では、文章を左から右へ順に読み取り、次に現れる単語を予測する「自己教師あり学習」を実施する。人手による正解ラベルを大量に用意しなくても学習できるため、インターネット上の大規模データを活用しやすい。この手法により、学習用データが限られる分野でも高い性能を得やすくなった。

パラメータ数は約1億1700万であり、発表当時は複数のベンチマークで高い性能を示した。GPT-1の登場以降、事前学習済みモデルを多用途に転用する考え方が自然言語処理を扱う機械学習­分野で急速に広まり、各社の後続モデルではパラメータ数と学習データ量が大幅に増加していった。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。