事前学習済みEncoder-Decoderモデルである。BERTモデルとの違いは以下の通り

Encoder-Decoderモデルを図に表すと以下の通りである。

Untitled

事前学習では以下の6つのタスクを用いている。

単語マスキングでは予測する単語に_というマスキングを施す

単語削除では任意の単語を削除して.で置き換える

単語列のマスキングでは複数単語(BC)に_というマスキングを施す

単語の並び替えでは単語の順番を入れ替える。

文章回転では、単語の並びを保持したまま最初の単語を入れ替える

Untitled