読み方 : エムエルエム

MLM【Masked Language Modeling】マスク言語モデリング

概要

MLMとは、自然言語処理における機械学習の学習手法の一つで、文章中の一部の単語を隠し、その前後の文脈から隠された単語を予測させるタスク。主に文脈理解を強化するタスクで、大規模言語モデル事前学習で広く用いられている。
MLMのイメージ画像

大量のテキストデータから言語の意味や文法構造を学習させるための自己教師あり学習の方法の一つである。米グーグル(Google)社が2018年に発表した「BERT」の事前学習手法に採用されたことで広く知られるようになった。BERTはMLMに加えて、二つの文が連続するものか否かを判定する「NSP」(Next Sentence Prediction次文予測)という二つのタスクで学習する設計となっていた。

この手法では、入力された文章の中から一定割合の単語をランダムに選び、それらを特殊な記号列で置き換えて隠した状態でモデルに与える。モデルは前後の文脈情報を手掛かりとして、隠された単語が何であるかを予測するように学習する。隠す単語の割合は開発者によって事前に決定されるが、BERTの場合で約15%がマスク対象に選ばれる。

この方法の特徴は、単語の前後両方向の文脈を利用して意味を理解できる点にある。従来の言語モデルの多くは、文を文頭側から文末側へ順に処理して次の単語を予測する方式を採用していたが、MLMでは文全体の文脈を同時に参照することで、より豊かな意味表現を学習できるとされる。

例えば、「先日の休みに、友人と [MASKED] へ釣りに行った」という文のマスク部分を推測する場合、手前の単語からは「休み」「友人」という手掛かりしか得られないが、文全体を対象とすることで、「釣り」「行く」という文脈が補完され、「川」「海」など精度の高い推定を行うことができるようになる。このような学習を大量のテキストで繰り返すことで、語彙の意味関係や文脈のつながりを内部表現として獲得する。

MLMは、文章分類、質問応答情報検索など様々な自然言語処理タスクに応用可能な基盤的な言語能力の獲得に資する。BERT後継の「RoBERTa」「ALBERT」「DeBERTa」をはじめとする多くの言語モデルでも同様のマスク予測型の学習手法が採用されており、言語モデル事前学習における代表的な訓練タスクとして広く利用されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。