包含两篇工作,作者相同,是继承关系,开源代码是共同的:https://github.com/google-research/electra
1. ELECTRA:预先训练文本编码器作为鉴别器而不是生成器
https://zhuanlan.zhihu.com/p/118135466
作者:Kevin Clark,Minh Thang Luong,Quoc V.Le,Christopher D.Manning
摘要:蒙面语言建模(MLM)预训练方法(如BERT)通过用[MASK]替换一些标记来破坏输入,然后训练模型来重建原始标记。虽然它们在转移到下游NLP任务时会产生良好的结果,但它们通常需要大量的计算才能有效。作为替代方案,我们提出了一种更有效的样本预训练任务,称为替换令牌检测。我们的方法不是屏蔽输入,而是用从小型发电机网络中采样的合理替代物替换一些令牌,从而破坏输入。然后,我们训练一个判别模型,预测损坏输入中的每个令牌是否被生成器样本替换,而不是训练一个预测损坏令牌原始身份的模型。彻底的实验表明,这种新的训练前任务比MLM更有效,因为任务是在所有输入标记上定义的,而不仅仅是被屏蔽的小子集。因此,在模型大小、数据和计算量相同的情况下,我们的方法学习到的上下文表示大大优于BERT学习到的上下文表示。小型车型的收益尤其强劲;例如,我们在一个GPU上训练一个模型4天,在GLUE自然语言理解基准测试中,该模型的性能优于GPT(使用30倍以上的计算进行训练)。我们的方法在规模上也运行良好,其性能与RoBERTa和XLNet相当,但使用的计算量不到其计算量的1/4,并且在使用相同计算量时优于它们。△ 较少的
于2020年3月23日提交;最初于2020年3月公布。
评论:ICLR 2020
2. Pre-Training Transformers as Energy-Based Cloze Models
作者:Kevin Clark,Minh Thang Luong,Quoc V.Le,Christopher D.Manning
摘要:我们介绍了Electric,一种基于能量的完形填空模型,用于文本表征学习。与BERT一样,它是给定上下文的标记的条件生成模型。但是,Electric不使用掩蔽或输出上下文中可能出现的令牌的完整分布。相反,它为每个输入标记分配一个标量能量分数,指示给定上下文的可能性。我们使用基于噪声对比估计的算法训练Electric,并阐明该学习目标与最近提出的ELECTRA预训练方法的密切关系。Electric在转移到下游任务时表现良好,在生成文本的可能性分数方面特别有效:它将语音识别n最佳列表重新排序,比语言模型更好,比蒙面语言模型快得多。此外,它还为ELECTRA在培训前学习的内容提供了更清晰、更具原则性的观点。△ 较少的
于2020年12月15日提交;最初于2020年12月公布。
评论:EMNLP2020