LLM 【Large Language Model】 大規模言語モデル

概要

LLM(Large Language Model)とは、機械学習システムで大量の学習データを処理して構築した、自然言語を扱うことができるモデル。特定のタスクに特化したモデルではなく、様々な用途に汎用的に用いることができる。

日本語や英語などの自然言語で書かれた文章などで構成される大規模なデータセット(言語コーパス)で学習したニューラルネットワークの一種で、文章の理解や生成、要約、校正、対話、翻訳など様々なタスクをこなすことができる。

LLMは、ある単語の並びの後に続く単語として、何を選べば最も「もっともらしい」かを確率として表現する。何らかの自然言語入力を与えると、その内容に対する関連性、言語表現として自然さなどを勘案しながら新しい文章を出力することができる。利用者の指示に従って文字情報を生み出す生成AIとして利用されることが多い。

多くの機械学習システムでは、人間の手によって特定の課題のために調整された学習データを用いる「教師あり学習」をうが、LLMは文章の一部を隠して自分で「穴埋め問題」を作るなどの手法で与えられた文書データそのものを学習することができる(自己教師あり学習)。公開されている大量の文章などをそのまま学習に用いることができるため、大規模なモデルを効率的に構築することができる。

LLMの具体的な設計アーキテクチャ)にはいくつかの手法が提案されているが、現在主流となっているのは「Transformerトランスフォーマー」と呼ばれるモデルである。入力データ中の各要素に注目度合いに相当する重み付けをう「アテンション」(attension)と呼ばれる機構を組み込んだモデルの一つで、並列処理しやすい構造であるため学習時間を短縮できる利点がある。

Transformerに基づいて構築された言語モデルとしては米グーグルGoogle)社の「BERT」(Bidirectional Encoder Representations from Transformers)や米オープンAIOpenAI)社の「GPT」(Generative Pre-trained Transformer)などがある。前者は同社のWeb検索サービスなどで、後者は対話的AIチャットボットChatGPT」などで用いられている。

LLMでは、学習が完了したニューラルネットワークが内部的にいくつのパラメータ)の組み合わせとして表現されるかを「パラメータ数」と呼び、言語モデルの規模を表している。パラメータが多いほど、豊富な語彙や知識を用いてより適格で自然な文章を生成できるとされる。現在実用化されているモデルは数億から数百億ものパラメータを持っており、十億を表す「B」(billionの頭文字)を用いて「7.5B」(75億パラメータ)のように表記する。

(2023.9.27更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる