事前学習済みEncoderモデルである。学習に用いたコーパスはBookCorpus (800M words)とWikipedia (2500M words)である。Wikipediaに対しては、テキストパッセージのみ抽出し、リストや、テーブル、ヘッダーについては無視している。そのためどちらかというとランダムな文章から構成されているコーパスではなくドキュメントレベルのコーパスを利用している。
このモデルの特徴は事前学習に、1)Masked LMと2)Next Sentence Prediction(NSP)の2つを用いた点である。1)については、モデルのインプットとして格納される文章のうち15%をマスキングをして、それをさらに再生成するように学習する手法である。具体的には、例えば、”Elon Musk completed $44 dollar of twitter”という文章が与えられた際に、この文章の一部分をマスキングをする。”Elon Musk [MASK] $44 [MASK] of twitter”というマスキングをしたのちにモデルは[MASK]の単語を再生成するように学習する。2)では、さらに文章間の関係性を学習するために、二値化された次文予測タスクを行う。具体的には文Aと文Bを選ぶ際に、50%はAに続く次文、残りの50%はコーパスからのランダムな文を選ぶ。そして、それらの文Aと文Bが連続する文であるか否かについて学習する手法である。