読み方 : アルバート
ALBERT【A Lite BERT】
概要

米グーグル(Google)社と豊田工業大学シカゴ校の研究者が共同で2019年に発表したモデルである。元になった「BERT」(Bidirectional Encoder Representations from Transformers)はGoogle社が開発したモデルで、高い性能を持つ一方、パラメータ数が多くメモリ消費と計算コストが大きいという課題があった。ALBERTはモデルを軽量化するために、二つの主要な技術的工夫を導入した。
一つ目は、埋め込み行列の因子分解である。BERTでは語彙の埋め込み表現の次元数とTranformerの隠れ層の次元数が同じに設定されていた。ALBERTではこれを分離し、埋め込み表現を小さな次元で表現してから隠れ層の次元に変換する二段階の構造にした。これにより、単語埋め込みに使われるパラメータ数を大幅に削減できる。
二つ目は、層間のパラメータ共有である。BERTは各Transformer層が独立したパラメータを持つが、ALBERTは全層または一部の層でパラメータを共有する。同じパラメータを繰り返し適用することでモデル全体のパラメータ数を抑えながら、深いネットワーク構造を維持することが可能になっている。
学習タスクの面でも、BERTが採用していた「次文予測」(NSP:Next Sentence Prediction)タスクを廃止し、代わりに「文順序予測」(SOP:Sentence Order Prediction)というタスクを導入した。二つの文の順序が正しいか入れ替わっているかを判定させるこのタスクは、文と文の論理的な関係をより精度よく学習させる効果があるとされる。