MLM【Masked Language Modeling】マスク言語モデリング
概要

大量のテキストデータから言語の意味や文法構造を学習させるための自己教師あり学習の方法の一つである。米グーグル(Google)社が2018年に発表した「BERT」の事前学習手法に採用されたことで広く知られるようになった。BERTはMLMに加えて、二つの文が連続するものか否かを判定する「NSP」(Next Sentence Prediction:次文予測)という二つのタスクで学習する設計となっていた。
この手法では、入力された文章の中から一定割合の単語をランダムに選び、それらを特殊な記号列で置き換えて隠した状態でモデルに与える。モデルは前後の文脈情報を手掛かりとして、隠された単語が何であるかを予測するように学習する。隠す単語の割合は開発者によって事前に決定されるが、BERTの場合で約15%がマスク対象に選ばれる。
この方法の特徴は、単語の前後両方向の文脈を利用して意味を理解できる点にある。従来の言語モデルの多くは、文を文頭側から文末側へ順に処理して次の単語を予測する方式を採用していたが、MLMでは文全体の文脈を同時に参照することで、より豊かな意味表現を学習できるとされる。
例えば、「先日の休みに、友人と [MASKED] へ釣りに行った」という文のマスク部分を推測する場合、手前の単語からは「休み」「友人」という手掛かりしか得られないが、文全体を対象とすることで、「釣り」「行く」という文脈が補完され、「川」「海」など精度の高い推定を行うことができるようになる。このような学習を大量のテキストで繰り返すことで、語彙の意味関係や文脈のつながりを内部表現として獲得する。
MLMは、文章分類、質問応答、情報検索など様々な自然言語処理タスクに応用可能な基盤的な言語能力の獲得に資する。BERT後継の「RoBERTa」「ALBERT」「DeBERTa」をはじめとする多くの言語モデルでも同様のマスク予測型の学習手法が採用されており、言語モデルの事前学習における代表的な訓練タスクとして広く利用されている。