发现链接: https://hub.baai.ac.cn/activity/details/136
1.论文题目:LogME: Practical Assessment of Pre-trained Models for Transfer Learning
论文链接:arxiv.org/abs/2102.11005
摘要:本文研究任务自适应预训练模型选择,这是一个未深入研究的评估预训练模型的问题,以便无需微调就可以从模型库中选择适合该任务的模型。一项试点工作(Nguyen等人,2020年)解决了将监督预训练模型转移到分类任务的问题,但它不能处理新出现的无监督预训练模型或回归任务。为了寻求一种实用的评估方法,我们建议在给定由预先训练的模型提取的特征的情况下,估计标签的最大证据(边际似然)。最大证据比似然法更不容易过度拟合,并且通过我们精心设计的算法可以显著减少其昂贵的计算。最大证据对数(LogME)可用于评估迁移学习的预训练模型:具有高LogME的预训练模型可能具有良好的迁移性能。LogME快速、准确、通用,是第一种实用的迁移学习评估方法。与强力微调相比,LogME在挂钟时间内带来了3000倍以上的加速。它在设置方面优于现有方法,并且适用于现有方法无法处理的新设置。它足够通用于不同的预训练模型(有监督的预训练和无监督的预训练)、下游任务(分类和回归)和模态(视觉和语言)。
论文详细介绍:https://mp.weixin.qq.com/s/9lJEcwkXAN4jaENNghjpyw
2.【题目】Random Feature Attention
【作者】Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong
【时间】3 Mar 2021, ICLR 2021
【推荐理由】本文提出了RFA,一种线性时间和空间复杂度的注意力机制。使用随机特征方法来近似softmax函数,并探讨了它在Transformer中的应用。
Transformer是用于各种序列建模任务的最先进模型。核心是注意力机制,在每个时间步对输入之间的相互作用进行建模。注意力机制在序列长度上的二次时间和空间复杂性,不能有效地扩展到长序列。RFA可以作为常规softmax注意力的替代,并通过可选的门控机制提供了一种直接的学习近因偏差的方式。在语言建模和机器翻译方面的实验表明,相对于基线,RFA具有相似或更好的性能。在机器翻译实验中,RFA的解码速度是普通模型的两倍。相对于现有的高效Transformer,RFA在三个长文本分类数据集上的准确性和效率都具有竞争力。