事前学習済みEncoder-Decoderモデルである。BERTモデルとの違いは以下の通り
Encoder-Decoderモデルを図に表すと以下の通りである。
事前学習では以下の6つのタスクを用いている。
単語マスキングでは予測する単語に_というマスキングを施す
単語削除では任意の単語を削除して.で置き換える
単語列のマスキングでは複数単語(BC)に_というマスキングを施す
単語の並び替えでは単語の順番を入れ替える。
文章回転では、単語の並びを保持したまま最初の単語を入れ替える