《MLP-Mixer: An all-MLP Architecture for Vision》- Google Research
《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》- 清华大学
《Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet》- 牛津大学
《Are Pre-trained Convolutions Better than Pre-trained Transformers?》- Google Research
《ResMLP: Feedforward networks for image classification with data-efficient training》- Facebook AI
《FNet: Mixing Tokens with Fourier Transforms》- Google Research
《Pay Attention to MLPs》- Google Research
MLP-Mixer、Stack of FFN、ResMLP这三个模型,事实上可以看成是去年的Synthesizer的一个特例,甚至从技术上来说,它们还不如Synthesizer的内容丰富,因此真算不上什么有意思的工作;至于它的改进版gMLP / aMLP,则是非常常规的结构炼丹工作,只要算力足够我们都可以去做,所以也确实没什么意思;External Attention号称两个线性层,事实上就是Attention的变式,其生效机制和实验对比也不够明朗;比较有意思的就是CNN预训练和FNet这两个工作了,一个让我们解耦了“预训练改进”和“模型改进”两个概念,一个提出的傅立叶变换也有效给我们带来了较大的思想冲击。
整体而言,这些工作离成熟还远得很,最多是初步验证了有效性,连优雅也说不上。比如,除了FNet,这些所谓的“all in MLP”的模型,都没有办法比较优雅处理变长输入,像MLP-Mixer、Stack of FFN、ResMLP纯粹在(固定大小的)图像上实验,所以不用考虑这个问题,像Synthesizer / gMLP / aMLP虽然做了NLP的实验,但看上去都是强行截断的,算不上漂亮。所以,这系列工作一定程度上是开拓了新的思路,但其实带来了更多有待解答的问题。
那么我们要不要跟呢?个人认为没必要投入多少精力进去,平时大致关注一下就行了。抛开前面说的优雅性问题不说,这些工作的实用性本身就值得商榷。像将Attention换成MLP的改进,最大的优点无非就是提速,没错,是会快一点,但理论复杂度还是
,这说明其实没有本质改进,况且提速的同时通常还会降低一点性能。如果单从“提速并降低一点性能”的追求来看,Transformer可做的工作也非常多(最直接的就是减少一两层),没必要换成MLP,而换成MLP探索自由度降低了不少。当然,从“拓荒”的学术角度来看,多角度尝试各种新模型是有意义的,但这也不宜掺入过多的人造因素在里边,不然就变成了一个在结构上过拟合任务的过程了,难登大雅之堂。
此外,对于NLP来说,我们可能比较关心的是“预训练+微调”这一块的性能,而很遗憾,从Synthesizer开始的一系列NLP实验表明,将Attention换成MLP后的模型也许在某个任务上能取得有竞争性的结果,但是其迁移性往往不好,也就是说可能单看预训练效果还不错,但是“预训练+微调”多数就比不上Transformer了。这也不难理解,因为它们把Attention矩阵参数化,那么该矩阵更有可能跟具体任务强相关了,不像Transformer那样自适应生成的Attention矩阵那样具有更好的适应能力。
苏老师的其它讲解:
Google新作Synthesizer:我们还不够了解自注意力
RealFormer:把残差转移到Attention矩阵上面去
Nyströmformer:基于矩阵分解的线性化Attention方案
Performer:用随机投影将Attention的复杂度线性化
线性Attention的探索:Attention必须有个Softmax吗?
Transformer升级之路:3、从Performer到线性Attention
为节约而生:从标准Attention到稀疏Attention
Transformer升级之路:1、Sinusoidal位置编码追根溯源
《Synthesizer: Rethinking Self-Attention in Transformer Models》
众所周知,点积的自注意是最先进Transformer型号的核心和不可或缺的部分。但真的需要吗?本文研究了基于点积的自注意机制对Transformer模型性能的真正重要性和贡献。通过大量的实验,我们发现:(1)随机对齐矩阵(random alignment matrices)令人惊讶地表现相当有竞争力;(2)从Token到Token(查询到键)交互学习注意权重是有用的,但毕竟不是那么重要。为此,我们提出了Synthesizer,一个模型,学习合成的注意权重,没有Token间的相互作用。在我们的实验中,我们首先展示了简单的Synthesizer在一系列任务中,包括机器翻译、语言建模、文本生成和GLUE/SuperGLUE基准测试,与vanilla Transformer模型相比,具有很强的竞争力。当与点积的注意力结合,我们发现Synthesizer始终优于Transformer。此外,我们还将Synthesizer与动态卷积进行了比较,结果表明,简单的随机Synthesizer不仅速度快60%,而且使复杂度提高了3.5%。最后,我们证明了简单的因式分解Synthesizer在仅编码任务上的性能优于Linformers。
1. 引言
Transformer模型(Vaswani等人,2017年)在广泛的任务中取得了成功。这导致了近年来Transformer在很大程度上取代了一度流行的自回归和循环模型。在Transformer模型的核心在于query-key-value 点积的关注。Transformer模型的成功被广泛地归因于这种自注意机制,因为全连接的token graphs能够模拟长程依赖,提供了一种鲁棒的感应偏置。
但是点积的自注意真的那么重要吗?我们需要它吗?有必要通过两两点积来学习注意权重吗?本文旨在加深对点积自注意机制在Transformer模型中的作用的理解。
点积自注意的基本作用是学习自对齐(self-alignment),即确定单个标记相对于序列中所有其他标记的相对重要性。为此,人们构建了记忆隐喻和类比来支持这一说法。事实上,术语查询、键和值意味着自注意模拟了一个基于内容的检索过程,该过程的核心是利用成对交互。
与传统相反,本文假设我们能(?)没有点积自注意,也可以(?)完全没有基于内容的记忆,比如自注意。传统上,注意力权重是在实例级或样本级学习的,其中权重是由实例级的成对交互产生的。因此,这些特定于实例的交互常常在不同的实例之间自由波动,因为它们缺乏一致的全局上下文。(Moving against convention, this paper postulates that we cannot only do without dot product self-attention but alsocontent-basedmemory-likeself-attention altogether. Traditionally, attention weights are learned at the instance or sample level, where weights are produced by instance-level pairwise interactions. As a result, these instance-specific interactions often fluctuate freely across different instances as they lack a consistent global context )
本文提出了一种新的合成模型,即学习合成自对准矩阵,而不是人工设计的计算两两点积。我们提出了一系列不同的合成函数,并对它们进行了广泛的评估。我们描述了这些合成函数接收的源信息,即它们是否从单个Token、Token-Token交互和/或全局任务信息接收信息。直观地说,合成函数的不同源输入应该捕获不同的视图(views),这在结合使用时可能很有用。
除了推广标准的Transformer模型外,我们还表明,完全全局关注权重完全不考虑Token-Token交互或任何实例级(本地)信息是有可能获得竞争结果的。(it is possible to achieve competitive results with fully global attention weights that do not consider token-token interactions or any instance-level (local) infor-mation at all. )更具体地说,随机矩阵Synthesizer模型在WMT 2014 English-German1上获得27.27 BLEU分数。通过一组严格的实验,我们观察到,流行的和完善的基于点积内容的注意力可以用简单的变量(如随机矩阵或密集层)来近似,而在某些情况下不会牺牲太多性能。
在我们的实验中,我们还表明,我们相对简单的Synthesizer模型也优于动态卷积(Wu等人,2019),困惑度相对提高了+3.5%,同时速度提高了60%。在编码任务上,我们的 factorized Synthesizer可以优于其他低秩高效Transformer模型,如Linformers(Wang等人,)。
虽然简单的Synthesizer模型能够有竞争力地执行,我们的实验表明,两两点积仍然是有用的。当我们将我们的合成函数与点积注意力结合时,我们发现性能有一致地提升。总的来说,我们相信我们的发现将促进对Transformer模型中自注意机制的真正作用和效用的进一步调查和讨论。
我们的贡献我们的主要贡献如下:
• 我们提出了合成注意(Synthetic Attention),这是一种新的学习方式,可以在没有明确计算注意力(即,没有点积注意或基于内容的注意)(learning to attend without explicitly attending)的情况下关注。相反,我们生成独立于标记依赖的对齐矩阵,并探索一系列用于合成注意矩阵的参数化函数。
• 我们提出SYNTHESIZER,一种利用合成注意力的新模式。该模型在广泛的语言任务(包括机器翻译和语言建模)上表现出与最先进的Transformer模型相比的竞争力。
• 此外,我们还表明:(1)随机可学习对齐矩阵具有竞争性;(2)token-token间的依赖对于在某些任务上实现Transformer模型的良好性能不是必需的。
• 在C4数据集上的大规模掩蔽语言建模(Raffel et al.,2019)和SuperGLUE和GLUE基准测试上的微调,我们表明简单的随机Synthesizer可以优于/匹敌轻量级动态卷积(Wu et al.,2019),同时优于Transformers和Universal Transformers(Dehghani et al.,2018)。在两个编码任务上,factorized random Synthesizers的性能优于低秩Linformers(Wang等人,2020)
2. 相关工作
基于注意力的模型广泛应用于各种问题领域。由于其有效性,这种模型在语言和视觉领域尤其流行。注意力模型可以追溯到(Bahdanau et al.,2014)和(Luong et al.,2015)的机器翻译模型,其中注意力被用于学习语言对之间的词的软对齐。注意机制背后的直觉深深植根于基于记忆的检索(Graves等人,2014;Weston等人,2014),其中首次提出了soft differentiable addressing of memory。
学习自校准的范例,也被称为自注意,已经被Transformer模型广泛推广(Vaswani et al.,2017)。最近的一些其他研究也探讨了这种技术叙述,包括关于intra-attention(Parikh et al.,2016)、self-matching networks(Wang et al.,2017)和LSTMN(Cheng et al.,2016)的研究。至此,Transformer模型,其功能主要基于自注意和前馈层,通常作为一个可靠的替代自回归循环模型。
自注意层本身就是最近许多技术创新的主题。例如,最近的研究调查了通过稀疏化提高层的整体效率和降低计算对齐矩阵的复杂性(Child等人,2019;Kitaev等人,2020年;黄等,2018;Tay等人,2020年;Beltagy等人,2020年)。这些方法与查询键值范式紧密结合,采用一种基于记忆的内容检索形式作为注意机制。另一方面,有研究主张用卷积代替自注意(Wu等人,2019)。最近人们对简化注意机制的兴趣激增,这就提出了关于成对点积的作用和效用的重要问题,而成对点积是自注意模型的定义特征之一。同时,在图像领域,(Cordonnier et al.,2019)显示了Transformer与CNN的连接。
我们的工作是Transformer模型中自注意机制的一个新尝试。我们进行了更深入的研究,首先用我们所称的合成函数来代替成对的点积,这些函数学习可能依赖于也可能不依赖于输入标记的注意矩阵(learn attention matrices that may or may not depend on the input tokens.)。最密切相关的工作是(Raganato et al.,2020),其中作者建议在Transformer编码器中使用固定(即,未学习的)注意模式。但是,他们的工作范围仅限于编码器,并且依赖于手动定义的手工模式,这些模式似乎工作得很好。我们的工作将这一直觉更进一步,并扩展了这一叙述。
MLP-Mixers是随机Synthesizer
这是一个讨论随机Synthesizer和最近的MLP-Mixers之间关系的更新(Tolstikhin等人,2021)。最近的工作(2021年4月)提出了All-MLP架构。尽管本文在2020年5月首次出现,也就是MLP-Mixers被提出的前一年,我们展示了随机Synthesizer是MLP-Mixers的一种形式。随机Synthesizer在长度维度上应用权重矩阵。是矩阵,可以看作是长度维度上的投影形式。这相当于在MLP-Mixers模型中的token-mixer中在线性投影之前转置轴。这里的关键区别在于:(1)我们在内核(权重)上使用softmax规范化,(2)随机Synthesizer是一种多头MLP-Mixers
3. 提出的方法
本节介绍我们提出的Synthesizer模型。在其核心,我们的模型本质上是一个Transformer模型的自注意模块换成我们的合成注意模块。图3.1说明了(a)Transformer(b)Dense Synthesizers和(c)Random Synthesizer背后的关键思想。
3.1 Synthesizer模型
本节介绍我们提出的自注意模块“合成注意”。我们的模型去掉了自注意模块中query-key-values的概念,直接合成对齐矩阵。为了简单起见,我们描述了每头和每层的计算,在大多数情况下分别用和表示。
Dense Synthesizer 让我们考虑Synthesizer模型的最简单变体,它取决于每个输入Token。总的来说,我们的方法接受输入,并产生一个输出。这里表示序列长度(原文似有误,原文说表示序列长度),表示模型维度。我们首先应用一个参数化的函数,将输入从维映射到维:
其中是将映射到的参数化函数,是的第个token,并按位计算(长度N序列中的每个向量)。直观地说,这可以解释为学习到序列长度的Token式投影。本质上,在这个模型中,每个Token预测输入序列中每个Token的权重(each token predicts weights for each token in the input sequence)。在实践中,对于,我们采用了一个带ReLU的简单的两层前馈层:
其中是ReLU激活函数,,。酱子,就是了。给定一个,我们现在计算:
其中是的另一个参数化函数,可类比于标准Transformer中的。这种方法通过将标准Transformer中换成合成函数,从而将点积注意力整个地摘除了。
Random Synthesizer 前一种变体通过取决于的每个输入并投影到的维度来学习合成注意力。因此,Dense Synthesizer独立地依赖于每个Token,与vanilla Transformer模型中的成对Token交互相反。我们考虑Synthesizer的另一个变体,其中注意力权重不取决于任何input tokens。相反,注意力权重被初始化为随机值。这些值可以是可训练的,也可以保持固定的(表示为)。
令是一个随机初始化的矩阵。随机Synthesizer定义为:
其中。值得注意的是,每个头向网络添加参数。随机Synthesizer(我们本以为这种变体根本不起作用,但结果证明这是一个很强的基线)的基本思想是不依赖于成对Token交互或来自单个Token的任何信息,而是学习任务特定的对齐,该对齐在许多样本中整体工作良好。这是最近提出的固定自注意模式的直接推广(Raganato等人,2020)。
Factorized Models Dense Synthesizer给网络添加个参数,Random Synthesizer给网络添加个参数。这里,请注意,我们省略了标准Transformer中的,投影,这将进一步节省参数。尽管节省了这些成本,但当模型很大时,要学习synthesized模型可能会很麻烦。因此,我们提出了Synthesizer模型的factorized 变体,并表明这些变体在实践中表现相当。
Factorized Dense Synthesizer Factorized outputs不仅仅轻微地减少了Synthesizer的参数量,而且有助于防止过拟合。Dense Synthesizer的factorized变体可以表示为:
其中将输入投影为维,将投影为维,并且。分解模型的输出现在写为:
其中,这里和是平铺函数(tiling functions),并且。平铺函数是简单地将向量复制次,也即。具体地,,。为了避免在同一块中有相似的值,我们组合(compose)了和的输出。
Factorized Random Synthesizer 类似地,我们也可以将分解为低秩矩阵:
这样,很容易看到,对每个头,将参数量从缩减至,其中。因此能够阻止过拟合。实践中我们使用一个小的值。
Mixture of Synthesizers 最后,我们注意到我们已经提到的所有synthetic attention变体可以用加法结合起来,写为:
其中是一个参数化的合成函数( synthesizing function), 是可以学习的权重,且。将Random Factorized与standard Dense Synthesizers结合的情况,有:
我们在实验里研究了几种混合变体。
我们的参数量取决于序列长度 随机和密集Synthesizer都依赖于,参数量取决于序列长度。一般来说,我们定义一个最大长度,并动态截断每个batch的实际长度。我们注意到,这与Transformer模型中常见的可训练位置编码具有相似的精神。因此,我们在这里看不到任何问题。如果这确实是一个问题,一个可能的解决方案是投影到较小的值,并将平铺到最大序列长度。我们把这个探索留给未来的工作。
3.2 讨论
本文提出了关于注意矩阵的基本问题,以及除了两两注意之外,是否有可能用其他方法合成。值得注意的是,我们的Synthesizer框架也包含了对常规点积的关注,即Synthesizer是Transformer模型的推广。在Transformer的情况下,合成函数是S(X)=FQ(X)FK(X)>。表1列出了在我们的Synthesizer框架中探索的不同模型变体。“condition on”列是指合成输出是作为Xi的函数还是作为每个Xi,Xj对的函数生成的。“sample”列指示给定的变量是利用本地上下文还是全局上下文。随机Synthesizer是全局的,因为它们在所有样本中共享相同的全局对齐模式。密集Synthesizer被认为是局部的,因为它们是以Xi为条件的,这使得对准模式依赖于每个单独的样本。为此,合成模型必须有多个头才能有效。
实验
本节概述了我们的实验设置和结果。我们首先对五项任务进行实验,评估不同Synthesizer变体的有效性,以及它们与普通转换器的比较。具体来说,我们进行了以下实验:(1)机器翻译(EnDe,EnFr);(2)自回归语言建模(LM1B);(3)文本生成(摘要和对话建模);(4)多任务自然语言处理(GLUE/SuperGLUE)。每个实验的细节见附录。
变体符号
我们用R表示随机,D表示密集,V表示香草点积注意。Fix表示固定随机,FR表示因式分解随机,FD表示因式分解随机。对于混合Synthesizer,我们使用+表示两种方法是混合的。
4.1.比较Synthesizer变体和Transformer模型
本节深入到多个Synthesizer变体和基础Transformer模型的详细研究。在MT/LM上的实验结果首先,我们观察到我们的随机Synthesizer基线在EnDe上达到27.27,在EnFr上达到41.12。不可训练的(即固定的)变体的性能要差得多,但仍然产生出人意料的强大≈ 24 BLEU,具有固定的随机注意力权重。大多数其他Synthesizer变种实现了竞争性的性能,虽然与Transformer相比性能略有下降。一个有趣的发现是,随机+密集Synthesizer的混合模型的性能与EnDe上的香草变形金刚相当。当混合标准点积时,性能进一步提高+0.8 BLEU点(EnDe)。一般来说,Synthesizer变体的性能在这项任务上与Transformer具有竞争力。在LM1b上,我们发现随机Synthesizer的性能与vanilla Transformer模型相差1-2ppl点。性能最好的型号是Synthesizer(D+V),它在这种设置下获得最佳性能。
文本生成结果
综上所述,我们发现(R)和(D)变量的性能并不优于Transformer。(D)模型的性能是≈ Transformer下方2个胭脂点。因此,我们假设局部样本成对交互对摘要任务非常重要。另一方面,也可以观察到综合注意的效用,即(R+V)和(R+D)模型都优于Transformer。在对话任务中,Synthesizer(R)和(D)都比普通变形金刚有一个合理的优势(≈ 1-3)大多数/所有指标得分。这里性能最好的模型是(D)变体。令人惊讶的是,与大多数其他任务不同,(+V)变体的表现并不好,这意味着点积自注意实际上可能对这项任务有害。
比较Synthesizer与动态卷积
为了确定Synthesizer的竞争力,我们还将其与动态卷积进行了比较(Wu等人,2019年)
我们比较了它们在(1)训练前的困惑(使用C4上的蒙面语言建模目标)和(2)在GLUE和SuperGLUE上的下游微调结果。
掩蔽语言建模结果
我们还测试了这些模型的速度。为了做到这一点,我们在C4数据集(Raffel et al.,2019)上进行了额外的实验,对比了轻量级动态卷积(Wu et al.,2019)对掩蔽语言建模任务的适应性。我们也借此机会,以基准速度Synthesizer相比Transformer。在Mesh Tensorflow(Shazeer et al.,2018)上进行实验,并在2x2 TPU V3芯片上运行约524K步。
结果
表4报告了掩蔽语言建模5的验证集日志困惑。我们观察到,Synthesizer(R)的性能比动态卷积高出3.5%,同时速度快了60%。相对于轻量级的动态卷积,我们匹配性能的同时提高了+5%。考虑到这是一个简单的随机Synthesizer基线,我们发现这非常有趣,它是如何能够超越动态卷积,一个相对复杂的模型。与两种卷积模型相比,随机Synthesizer也具有较少的触发器。另一方面,使用点积注意的混合Synthesizer模型以相对相等的模型速度改进了基本Transformer模型的性能。最后,与先前的结果相似,我们看到Synthesizer(D+V)和Synthesizer(R+V)的性能增益一致,优于基本Transformer模型。
胶水和强力胶的结果
表5和表6报告了胶水和超级胶水基准测试的结果。我们注意到,Synthesizer的(R)和(D)变体没有达到合理的性能。这在很大程度上可以归因于这样一个事实,即T5设置中的编码器自注意也起到了跨句注意的作用。例如,在蕴涵或阅读理解任务中,前提和假设连接在一起,自注意有效地充当了跨句注意
.在SST这样的数据集上,这种跨句注意是不必要的,因此Syn(R)和Syn(D)的表现都很有竞争力。为此,动态卷积(Wu et al.,2019)也没有这种编码器“交叉注意”,因此在许多成对匹配任务中也会受到影响。值得注意的是,在这种“无交叉注意”设置中,随机Synthesizer的胶水/强力胶水分数比动态卷积高4到5个百分点。
乐观地说,我们观察到混合模型Syn(R+V)比T5模型有很大的优势(+1.9点的强力胶和+0.6点的强力胶)。当然,混合混合模型也大大优于动态卷积。最后,为了确保Syn(+V)变量不会因为简单地具有更多参数而优于Transformer,我们还比较了与Syn(+V)变量具有相同参数数量的T5(Base+)变量(大约≈ 更多参数)。我们的结果表明,Synthesizer(+V)仍然优于T5(Base+)。
4.2. Synthesizer与线性调频器的比较
我们进行了更多的实验比较因子随机Synthesizer和linformer。由于Linformer不能用于解码,我们将其与来自tensorflow数据集(AGnews(Zhang et al.,2015)和电影评论(Maas et al.,2011))的两个编码任务进行比较。我们对两个因子分解模型都使用k=32。我们还在这项任务中对Transformer进行基准测试。注:我们不使用上下文嵌入,因此结果与其他工作不可比较。
结果
我们注意到因子Synthesizer(FR)在这个任务上与linformer和transformer有竞争力。Syn(FR)的精度与Linformers相当,而Syn(FR+V)的性能优于Transformer和Linformers。
定性分析
重量分布
我们感兴趣的是研究如何综合产生的注意权重不同于点积注意权重。图3显示了经过训练的Transformer和Synthesizer模型的注意力直方图。我们报告了一个6层(Transformer或Synthesizer)模型的第1层、第3层和第5层在50K步进时的直方图。我们发现此后,权重分布保持相对一致。图2显示了初始化状态。我们观察到Synthesizer和Transformer模型的重量分布有明显的差异。Synthesizer权重的变化趋于更大。另一方面,Transformer模型上的权值趋向于0附近的引力,方差较小。(R)和(D)Synthesizer变体之间也存在显著差异。具体而言,(D)模型通常具有更大的最大值,在0.1-0.2范围内具有更多的值,而R模型的值趋向于保持接近0。
Synthesizer学习什么模式?
在本节中,我们将对Synthesizer模型进行更深入的分析。
分析
最后,我们有兴趣了解这些Synthesizer模型在学习什么。我们检验了语言建模任务LM1B的随机合成注意权重,并将其与普通注意进行了比较。我们发现,对于LM任务,Synthesizer能够学习一个本地窗口,尽管从完全随机开始,但仍然能够非常接近地模拟vanilla Transformer。然而,与Transformer相比,重量看起来更平滑,也不那么粗糙。这似乎反映了我们的期望,因为Synthesizer不受益于Token特定的信息。我们在补充材料中提供了机器翻译任务权重的额外分析和可视化。
定量结果的总体总结
本节总结了我们的总体发现。
即使没有点积注意,合成注意也是有竞争力的
在所有的评价任务中,我们发现,综合注意函数具有竞争力,即达到了与点积自注意相对应的性能。在一个任务(对话生成)中,点积自注意实际上降低了绩效。在其他任务中,机器翻译受删除香草点积的影响最小。这些发现使我们能够反省是否有必要对自注意进行两两比较。在多任务语言理解基准上,自注意通过连接句子对作为交叉注意的形式发挥作用。因此,综合注意力的表现要比普通变形金刚差得多。
综合注意和点积注意是高度互补的
总的来说,我们还观察到,点积的关注是非常有帮助的。为此,合成注意力与成对点积注意力是高度互补的。虽然合成注意力通常可以自己获得有竞争力的快速表现,但合成注意力可以提高表现,将多个合成注意力(和点积注意力)组合在一起,几乎可以在我们所研究的所有任务中获得收益。因此,我们认为这是一个强有力的发现。
最简单的Synthesizer如随机Synthesizer是快速竞争的基线
最后,我们注意到简单的随机Synthesizer与动态卷积和LINFORMER竞争,这是最近提出的模型。在两个编码任务和大规模的蒙面语言建模任务上,我们发现随机(或因子化随机)Synthesizer仍然与其他快速或高效的Transformer模型竞争。
结论
本文提出了一种新的综合注意Transformer模型——Synthesizer。我们进行了一项原则性研究,以更好地理解和评估全局对齐和局部实例对齐(例如,独立Token和基于Token的Token)在自注意中的效用。我们发现,在机器翻译、语言建模、对话生成、掩蔽语言建模和文档分类等多个任务中,综合注意表现出与一般自注意相比的竞争性表现。此外,对于对话生成任务,成对交互实际上会影响性能。值得注意的是,我们再次强调,这项研究涉及自注意。我们发现,在大多数情况下,我们无法用简单的变体取代交叉注意。通过一组额外的大规模实验,还发现Synthesizer可以优于或匹配动态卷积,因子化Synthesizer可以优于其他低秩Linformer模型。