読み方 : ジーピーティーツー
GPT-2【Generative Pre-trained Transformer 2】
GPT-2とは?

基盤となる技術は「Transformer」と呼ばれるニューラルネットワークの一種である。文章内の離れた位置にある単語同士の関係や文脈を効率よく把握し、直前までのテキストをもとに次の単語を確率的に予測することを繰り返して文章を生成する。この方式を「自己回帰型」と呼ぶ。
学習にはインターネット上から収集した約40GBのテキストデータが使用され、最大構成では約15億のパラメータを持つ。パラメータとは学習によって調整される数値群であり、規模が大きいほど複雑な言語表現を扱いやすくなる。GPT-2は文脈の保持能力が高く、長文でも比較的一貫した内容を生成できた。
従来の自然言語処理では、翻訳や分類など用途ごとに個別の学習が必要だったが、GPT-2は大規模な「事前学習」(pretraining)のみで多様な処理に応用できる。追加学習なしで一定水準の応答を生成する「Zero-shot学習」や、少数の例示だけで処理する「Few-shot学習」にも対応しており、当時の他の自然言語処理モデルと比べて汎用性の高さが際立っていた。
公開時、OpenAIはフェイクニュースの大量生成や偽のレビュー投稿などへの悪用を懸念し、最大規模のモデルをすぐには公開せず段階的にリリースした。この対応はAIモデルの公開方針をめぐる議論の契機となった。後継の「GPT-3」はパラメータ数が1750億へと大幅に増加し、さらにその対話向け調整版が「ChatGPT」の初期版に用いられている。