読み方 : グルー

GLUE【General Language Understanding Evaluation】

概要

GLUEとは、自然言語処理モデルの汎用的な言語理解能力を測定するために設計されたベンチマーク。複数の言語理解タスクを組み合わせた評価方式で、モデルが言葉をどれほど総合的に理解できているかを客観的に数値化する。
GLUEのイメージ画像

文が文法的に正しいかどうかを判定するタスク、二つの文章の関係が含意か矛盾か中立かを判定するタスク、文章の類似度を評価するタスク、映画のレビュー読んで評価がポジティブかネガティブか判定する感情分析、質問文に対する回答文が正しく回答になっているか判定するタスクなど、性質の異なる9つのタスクで構成されている。

評価はタスクごとに定義された正解率やF1スコアといった指標に基づいて行われ、その結果を統合した「GLUEスコア」によってモデル性能が提示される。特定の課題に特化したモデルではなく、より人間の言語能力に近い、幅広い言語処理能力を持つモデルが高く評価される仕組みである。研究者は自身のモデルが既存の手法と比較してどの程度優れているかを同じデータセットと評価基準によって比較できる。

GLUEは2018年に発表され、BERTをはじめとする事前学習済みモデルの性能評価において標準的な指標となった。翌2019年には難易度を高めた「SuperGLUE」も発表されている。近年では、Transformerなどを利用した高度な大規模言語モデルLLM)が発展が著しく、人間を超えるスコアを出すことも珍しくなくなっている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。