読み方 : バート
BERT【Bidirectional Encoder Representations from Transformers】
概要
BERTとは、文脈を双方向に考慮した事前学習型の言語モデル。文章を通常の語順と逆順の両方向から同時に読み込み、文中で単語の後方にある文脈を反映した分散表現を生成することができる。米グーグル(Google)社が2018年に発表した。

Transformerのエンコーダ部分のみを用いた構造を持ち、入力文を左右両方向から同時に処理する。従来の言語モデルが一方向の文脈に基づいて学習していたのに対し、BERTは単語の前後両方の情報を統合した表現を獲得する。事前学習では、大規模なコーパス(文例データベース)を用いてマスク言語モデルと次文予測という二つの課題が設定され、文脈理解能力が体系的に学習される。
マスク言語モデルでは、入力文中の一部の単語を特殊なトークンで置き換えた文を与え、置き換え元の単語を予測する。モデルは周囲の語との関係性を踏まえた表現を学習する。次文予測では、二つの文が連続しているかどうかを判定する課題が与えられ、文レベルの関係性理解が促される。これらの事前学習により、BERTは汎用的な言語表現を獲得する。
事前学習後のBERTは、分類や質問応答、固有表現認識などの下流タスクに対して微調整(ファインチューニング)される。タスク固有の少量の学習データを用いてモデル全体を調整することで、高い性能が得られる。BERTが確立した「双方向の文脈理解」と「汎用的な事前学習」という枠組みは、現代の自然言語処理における標準的な手法として定着している。