T5解説 | Notion

自然言語処理タスクを全てText-T o-Textの形式に変換して学習をさせた事前学習済みEncoder-Decoderモデルのことである。事前学習に用いたデータセットはC4 (Colossal Clean Crawled Corpus)であり、これはウェブから収集した数百Gバイトのクリーンな英文テキストからなるデータセットである。そしてこのモデルの特徴は、下記の画像のように単語列をマスキングをし、さらにそれを再構築するように生成するので、文章生成タスクなどに良い結果を残している。