在进行模型的大规模预训练时,往往需要设计合适的自监督预训练任务,使得模型能够从海量无标注数据中学习到广泛的语义知识和世界只是。
目前,常用的预训练任务主要分为三类,包括语言建模(Language Modeling,LM)、去噪自编码(Denoising Autoencoding, DAE)以及混合去噪器(Mixture-of-Denisers,MoD)。
下图展示了语言建模和去噪自编码各自的输入与输出示例。

语言建模和去噪自编码的输入输出对比
5.1 语言建模(Language Modeling,LM)
语言建模任务是目前绝大部分大语言模型广泛采用的预训练任务。该任务的核心在于“预测下一个词元”,并且经常被应用于训练基于解码器的大语言模型,例如GPT。
- 本质上看,基于语言建模的预训练还可以看作是一种多任务学习过程。
- 基于大模型文本预料的预训练任务能够潜在地学习到解决终生任务的相关知识和任务。
- 训练效率:Prefix Decoder < Causal Decoder
- Causal Decoder结构会在所有token上计算损失,而Prefix Decoder只会在输出上计算损失
5.2 去噪自编码(Deniising Autoencoding,DAE)
- 去噪自编码任务是另外一种常见的语言模型预训练任务,广泛应用于BERT、T5等预训练语言模型中。
- 在去噪自编码任务重,输入文本经过一系列随机替换或删除操作,形成损坏的文本。模型的目标是根据这些损坏的文本恢复出被替换或删除的词元片段。
与语言建模星币,去噪自编码任务的视线更为复杂,需要设定额外的优化策略,如次元替换策略。
5.3 混合去噪器(Mixture-of-Denoisers,MoD)
- 混合去噪器,通过将语言建模和去噪自编码的目标均视为不同类型的去噪任务,对于预训练任务进行统一建模。