読み方 : アルバート

ALBERT【A Lite BERT】

概要

ALBERTとは、大規模言語モデルLLM)のBERTを軽量化し、効率的に学習できるよう設計された自然言語処理モデル。モデルの構造を最適化することでパラメータ数を削減しながら、高い言語理解性能を維持することに成功した深層学習モデルである。
ALBERTのイメージ画像

米グーグル(Google)社と豊田工業大学シカゴ校の研究者が共同で2019年に発表したモデルである。元になった「BERT」(Bidirectional Encoder Representations from Transformers)はGoogle社が開発したモデルで、高い性能を持つ一方、パラメータ数が多くメモリ消費と計算コストが大きいという課題があった。ALBERTはモデルを軽量化するために、二つの主要な技術的工夫を導入した。

一つ目は、埋め込み行列の因子分解である。BERTでは語彙の埋め込み表現の次元数とTranformerの隠れ層の次元数が同じに設定されていた。ALBERTではこれを分離し、埋め込み表現を小さな次元で表現してから隠れ層の次元に変換する二段階の構造にした。これにより、単語埋め込みに使われるパラメータ数を大幅に削減できる。

二つ目は、層間のパラメータ共有である。BERTは各Transformer層が独立したパラメータを持つが、ALBERTは全層または一部の層でパラメータを共有する。同じパラメータを繰り返し適用することでモデル全体のパラメータ数を抑えながら、深いネットワーク構造を維持することが可能になっている。

学習タスクの面でも、BERTが採用していた「次文予測」(NSPNext Sentence Predictionタスクを廃止し、代わりに「文順序予測」(SOP:Sentence Order Prediction)というタスクを導入した。二つの文の順序が正しいか入れ替わっているかを判定させるこのタスクは、文と文の論理的な関係をより精度よく学習させる効果があるとされる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。