Bert | Notion

事前学習済みEncoderモデルである。学習に用いたコーパスはBookCorpus (800M words)とWikipedia (2500M words)である。Wikipediaに対しては、テキストパッセージのみ抽出し、リストや、テーブル、ヘッダーについては無視している。そのためどちらかというとランダムな文章から構成されているコーパスではなくドキュメントレベルのコーパスを利用している。

このモデルの特徴は事前学習に、１）Masked LMと２）Next Sentence Prediction（NSP）の２つを用いた点である。１）については、モデルのインプットとして格納される文章のうち１５％をマスキングをして、それをさらに再生成するように学習する手法である。具体的には、例えば、”Elon Musk completed $44 dollar of twitter”という文章が与えられた際に、この文章の一部分をマスキングをする。”Elon Musk [MASK] $44 [MASK] of twitter”というマスキングをしたのちにモデルは[MASK]の単語を再生成するように学習する。２）では、さらに文章間の関係性を学習するために、二値化された次文予測タスクを行う。具体的には文Aと文Bを選ぶ際に、５０％はAに続く次文、残りの５０％はコーパスからのランダムな文を選ぶ。そして、それらの文Aと文Bが連続する文であるか否かについて学習する手法である。