読み方 : ジーピーティーツー

GPT-2【Generative Pre-trained Transformer 2】

GPT-2とは?

オープンAIOpenAI)社が2019年に発表した大規模言語モデルLLM)。入力された文字情報(テキスト)の続きを予測して文章を生成する機能を持ち、ニュース記事の執筆、要約、翻訳、質問応答など多様なテキスト処理を単一のモデルでこなせる。
GPT-2のイメージ画像

基盤となる技術は「Transformer」と呼ばれるニューラルネットワークの一種である。文章内の離れた位置にある単語同士の関係や文脈を効率よく把握し、直前までのテキストをもとに次の単語を確率的に予測することを繰り返して文章を生成する。この方式を「自己回帰型」と呼ぶ。

学習にはインターネット上から収集した約40GBのテキストデータが使用され、最大構成では約15億のパラメータを持つ。パラメータとは学習によって調整される数値群であり、規模が大きいほど複雑な言語表現を扱いやすくなる。GPT-2は文脈の保持能力が高く、長文でも比較的一貫した内容を生成できた。

従来の自然言語処理では、翻訳や分類など用途ごとに個別の学習が必要だったが、GPT-2は大規模な「事前学習」(pretraining)のみで多様な処理に応用できる。追加学習なしで一定水準の応答を生成する「Zero-shot学習」や、少数の例示だけで処理する「Few-shot学習」にも対応しており、当時の他の自然言語処理モデルと比べて汎用性の高さが際立っていた。

公開時、OpenAIフェイクニュースの大量生成や偽のレビュー投稿などへの悪用を懸念し、最大規模のモデルをすぐには公開せず段階的にリリースした。この対応はAIモデルの公開方針をめぐる議論の契機となった。後継の「GPT-3」はパラメータ数が1750億へと大幅に増加し、さらにその対話向け調整版が「ChatGPT」の初期版に用いられている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。