読み方 : グルー
GLUE【General Language Understanding Evaluation】
概要

文が文法的に正しいかどうかを判定するタスク、二つの文章の関係が含意か矛盾か中立かを判定するタスク、文章の類似度を評価するタスク、映画のレビュー読んで評価がポジティブかネガティブか判定する感情分析、質問文に対する回答文が正しく回答になっているか判定するタスクなど、性質の異なる9つのタスクで構成されている。
評価はタスクごとに定義された正解率やF1スコアといった指標に基づいて行われ、その結果を統合した「GLUEスコア」によってモデル性能が提示される。特定の課題に特化したモデルではなく、より人間の言語能力に近い、幅広い言語処理能力を持つモデルが高く評価される仕組みである。研究者は自身のモデルが既存の手法と比較してどの程度優れているかを同じデータセットと評価基準によって比較できる。
GLUEは2018年に発表され、BERTをはじめとする事前学習済みモデルの性能評価において標準的な指標となった。翌2019年には難易度を高めた「SuperGLUE」も発表されている。近年では、Transformerなどを利用した高度な大規模言語モデル(LLM)が発展が著しく、人間を超えるスコアを出すことも珍しくなくなっている。