LLM 【Large Language Model】 大規模言語モデル
概要
LLM(Large Language Model)とは、機械学習システムで大量の学習データを処理して構築した、自然言語を扱うことができるモデル。特定のタスクに特化したモデルではなく、様々な用途に汎用的に用いることができる。日本語や英語などの自然言語で書かれた文章などで構成される大規模なデータセット(言語コーパス)で学習したニューラルネットワークの一種で、文章の理解や生成、要約、校正、対話、翻訳など様々なタスクをこなすことができる。
LLMは、ある単語の並びの後に続く単語として、何を選べば最も「もっともらしい」かを確率として表現する。何らかの自然言語の入力を与えると、その内容に対する関連性、言語表現として自然さなどを勘案しながら新しい文章を出力することができる。利用者の指示に従って文字情報を生み出す生成AIとして利用されることが多い。
多くの機械学習システムでは、人間の手によって特定の課題のために調整された学習データを用いる「教師あり学習」を行うが、LLMは文章の一部を隠して自分で「穴埋め問題」を作るなどの手法で与えられた文書データそのものを学習することができる(自己教師あり学習)。公開されている大量の文章などをそのまま学習に用いることができるため、大規模なモデルを効率的に構築することができる。
LLMの具体的な設計(アーキテクチャ)にはいくつかの手法が提案されているが、現在主流となっているのは「Transformer」と呼ばれるモデルである。入力データ中の各要素に注目度合いに相当する重み付けを行う「アテンション」(attension)と呼ばれる機構を組み込んだモデルの一つで、並列処理しやすい構造であるため学習時間を短縮できる利点がある。
Transformerに基づいて構築された言語モデルとしては米グーグル(Google)社の「BERT」(Bidirectional Encoder Representations from Transformers)や米オープンAI(OpenAI)社の「GPT」(Generative Pre-trained Transformer)などがある。前者は同社のWeb検索サービスなどで、後者は対話的なAIチャットボット「ChatGPT」などで用いられている。
LLMでは、学習が完了したニューラルネットワークが内部的にいくつの値(パラメータ)の組み合わせとして表現されるかを「パラメータ数」と呼び、言語モデルの規模を表している。パラメータが多いほど、豊富な語彙や知識を用いてより適格で自然な文章を生成できるとされる。現在実用化されているモデルは数億から数百億ものパラメータを持っており、十億を表す「B」(billionの頭文字)を用いて「7.5B」(75億パラメータ)のように表記する。