Reducing Activation Recomputation in Large Transformer Models
https://arxiv.org/abs/2205.05198
[NVIDIA]
减轻大型Transformer模型的激活重计算。训练大型Transformer模型是现代人工智能的最重要的计算挑战之一。本文展示了如何通过减少激活重计算来显著加速大型Transformer模型的训练。激活重计算通常用来解决内存容量限制。传统上,不是为反向传播存储激活,而是重新计算,这节省了内存,但增加了冗余的计算。本文表明大部分冗余计算是不必要的,可以在避免其的情况下充分减少内存消耗。提出了两种新的非常简单的技术:序列并行和选择性激活重计算。与张量并行相结合,这些技术几乎消除了重新计算激活的需要。在规模达一万亿参数的语言模型上评估了所提出的方法,结果显示该方法将激活内存减少了5倍,同时将激活重计算的执行时间开销减少了90%以上。例如,在2240个NVIDIA A100 GPU上训练一个530B参数的GPT-3风格的模型时,实现了54.2%的模型Flops利用率,比使用重新计算实现的42.1%快29%。
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers
https://arxiv.org/abs/2205.03436
[The Chinese University of Hong Kong & Samsung AI Cambridge]
EdgeViTs: 用视觉Transformer挑战移动端轻量CNN。基于自注意力的模型,如视觉Transformer(ViT),已经成为计算机视觉中卷积神经网络(CNN)的一个非常有竞争力的架构替代品。尽管越来越强的变体具有越来越高的识别精度,但由于自注意力的二次复杂性,现有的ViT通常在计算和模型大小方面要求很高。尽管之前的CNN的几个成功的设计选择(例如,卷积和分层多阶段结构)已经被重新引入到最近的ViT中,但仍然不足以满足移动设备的有限资源要求。这促使我们最近尝试在最先进的MobileNet-v2的基础上开发轻量ViTs,但仍然存在性能上的差距。本文沿着这个研究不足的方向进一步推进,提出EdgeViTs,一个新的轻量ViT族,首次使基于注意力的视觉模型在准确性和设备效率的权衡中与最好的轻量CNN竞争。通过引入一个基于自注意力和卷积的最佳整合的高成本效益的本地-全局-本地(LGL)信息交换瓶颈来实现。对于设备专用的评估,没有依赖不准确的代理,如FLOPs的数量或参数,而是采用了一种实用的方法,直接关注设备上的延迟,并首次关注能源效率。在图像分类、目标检测和语义分割方面的广泛实验验证了所提出的EdgeViTs在移动硬件上与最先进的高效CNN和ViTs相比,在准确性-效率权衡方面的高效率。当考虑到准确率-延迟和准确率-能量权衡时,所提出模型是帕累托最优的,几乎在所有情况下都实现了对其他ViT的严格优势,并与最高效的CNN竞争。
LongT5: Efficient Text-To-Text Transformer for Long Sequences LongT5:长序列高效文本-文本Transformer
[Google Research] https://arxiv.org/abs/2112.07916 NAACL 2022
最近的研究表明,(1)增加输入长度或(2)增加模型大小都可以改善基于变压器的神经模型的性能。在本文中,我们提出了一个新的模型,称为LongT5,我们用它来探索同时缩放输入长度和模型大小的影响。具体来说,我们整合了长输入变压器(ETC)的注意力思想,并将总结预训练(PEGASUS)的预训练策略引入到可扩展的T5体系结构中。结果是一种新的注意机制,我们称之为{\em Transient Global}(TGlobal),它模仿了ETC的局部/全局注意机制,但不需要额外的侧面输入。我们能够在几个摘要任务上获得最先进的结果,并且在问答任务上优于原始T5模型。
★★★★★ Understanding The Robustness in Vision Transformers
https://arxiv.org/abs/2204.12451
https://github.com/NVlabs/FAN ICML2022
[NVIDIA & National University of Singapore & The University of Hong Kong]
理解视觉Transformer的鲁棒性。最近的研究表明,视觉Transformer(ViT)对各种破坏表现出强大的鲁棒性。尽管这一特性部分归因于自注意力机制,但仍然缺乏系统理解。本文研究了自注意力在学习鲁棒表示中的作用。该研究是由视觉Transformer中新出现的视觉分组的耐人寻味的特性所激发的,这表明自注意力可能通过改善中层表示来促进鲁棒性。本文进一步提出一个完全注意力网络(FAN)族,通过纳入注意力通道处理设计来加强这种能力。在各种分层骨架上全面验证了该设计。所提出模型在ImageNet-1k和ImageNet-C上实现了最先进的87.1%的精度和35.8%的mCE,参数为76.8M。还在两个下游任务中展示了最先进的精度和鲁棒性:语义分割和目标检测。
On the Representation Collapse of Sparse Mixture of Experts
https://arxiv.org/abs/2204.09179 [Microsoft Corporation]
稀疏专家混合表示坍缩研究。稀疏专家混合提供了更大的模型容量,同时需要一个持续的计算开销。其采用了路由机制,根据专家的隐性表示,将输入token分配给最匹配的专家。然而,学习这样的路由机制,会鼓励专家中心点周围的token聚类,这意味着一种表示坍缩的趋势。本文建议在低维超球上估计token和专家之间的路由分数。对跨语言语言模型的预训练和下游任务的微调进行了广泛的实验。七个多语言基准的实验结果表明,所提出方法取得了一致的收益。还对该模型的表示和路由行为进行了全面分析,其缓解了表示坍缩的问题,并且比基线的专家混合方法实现了更一致的路由。
Token Dropping for Efficient BERT Pretraining
基于Token Dropping的高效BERT预训练 [Google] ACL 2022
基于转换器的模型通常为给定序列中的每个令牌分配相同的计算量。我们开发了一种简单但有效的“令牌丢弃”方法来加速变压器模型(如BERT)的预训练,而不会降低其在下游任务中的性能。简言之,我们从模型的中间层开始丢弃不重要的令牌,使模型关注重要的令牌;丢弃的令牌稍后会被模型的最后一层拾取,这样模型仍然会生成完整的序列。我们利用已经内置的蒙面语言建模(MLM)损失来识别不重要的令牌,几乎没有计算开销。在我们的实验中,这种简单的方法将BERT的预训练成本降低了25%,同时在标准下游任务上实现了类似的整体微调性能。
https://arxiv.org/abs/2203.13240
MiniViT: Compressing Vision Transformers with Weight Multiplexing
MiniViT:基于权重复用的视觉Transformer压缩
[Microsoft Research & Microsoft Cloud+AI]
https://arxiv.org/abs/2204.07154
Neighborhood Attention Transformer
https://arxiv.org/abs/2204.07143
[U of Oregon & UIUC & Meta/Facebook AI]
近邻注意力Transformer。本文提出近邻注意力Transformer(NAT),一种高效、准确、可扩展的层次Transformer,在图像分类和下游视觉任务中都能很好地工作。其建立在近邻注意力(NA)基础上,这是一种简单灵活的注意力机制,将每个查询的感受野定位到其最近的邻近像素。NA是一种自注意力的局部化,随感受野大小增加而接近。在相同感受野大小下,它在FLOPs和内存使用方面也与Swin Transformer的移窗注意力相当,而受限制较少。此外,NA还包括局部感应偏差,从而消除了对像素移位等额外操作的需要。NAT的实验结果是有竞争力的;NAT-Tiny在ImageNet上仅用4.3GFLOPs和28M参数就达到了83.2%的top-1精度,在MS-COCO上达到51.4%的mAP,在ADE20k上达到48.4%的mIoU。
DaViT: Dual Attention Vision Transformers
DaViT:双注意力视觉Transformer
[The University of Hong Kong & Microsoft Cloud + AI & Baidu]
https://arxiv.org/abs/2204.03645
https://github.com/dingmyu/davit
在这项工作中,我们介绍了双注意视觉转换器(DaViT),这是一种简单但有效的视觉转换器架构,能够在保持计算效率的同时捕获全局上下文。我们建议从一个正交的角度来处理这个问题:利用“空间标记”和“通道标记”的自我注意机制。对于空间令牌,空间维度定义令牌范围,通道维度定义令牌特征维度。对于通道令牌,我们有相反的定义:通道维度定义令牌范围,空间维度定义令牌特征维度。我们进一步沿着序列方向对空间和通道令牌进行分组,以保持整个模型的线性复杂性。我们发现,这两种自我注意是相辅相成的:(i)由于每个通道标记都包含整个图像的抽象表示,因此在计算通道之间的注意分数时,通道注意通过考虑所有空间位置,自然捕获全局交互和表示;(ii)空间注意通过跨空间位置执行细粒度交互来细化局部表征,这反过来有助于通道注意中的全局信息建模。大量的实验表明,我们的吊柱在四种不同的任务上都能达到最先进的性能,并且计算效率很高。在没有额外数据的情况下,DaViT Tiny、DaViT Small和DaViT Base在ImageNet-1K上分别达到82.8%、84.2%和84.6%的顶级精度,参数分别为28.3M、49.7M和87.9M。当我们进一步放大1.5B弱监督图像和文本对的吊柱时,吊柱Gaint在ImageNet-1K上达到了90.4%的顶级精度。
MaxViT: Multi-Axis Vision Transformer
https://arxiv.org/abs/2204.01697
[Google Research & University of Texas at Austin]
MaxViT:多轴视觉Transformer。Transformer最近在计算机视觉领域获得了极大的关注。然而,自注意力机制在图像尺寸方面缺乏可扩展性,限制了它们在最先进的视觉骨干中的广泛采用。本文提出一种高效可扩展的注意力模型,称为多轴注意力,包括两个方面:阻断的局部注意力和扩张的全局注意力。这些设计选择允许在任意的输入分辨率上进行全局-局部的空间互动,而且只有线性的复杂度。还提出一种新的架构元素,将所提出的注意力模型与卷积有效地融合在一起,并相应提出了一种简单的分层视觉骨架,称为MaxViT,通过简单地在多个阶段重复基本的构建块。值得注意的是,MaxViT能在整个网络中"看到"全局,甚至在早期的高分辨率阶段。在广泛的视觉任务中证明了该模型的有效性。在图像分类方面,MaxViT在各种设置下都达到了最先进的性能。对于下游任务,MaxViT作为主干在目标检测和视觉美学评估方面提供了有利的表现。所提出的模型在ImageNet上表现出强大的生成建模能力,证明了MaxViT块作为通用视觉模块的卓越潜力。
Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection
https://arxiv.org/abs/2204.02964
https://github.com/hustvl/MIMDet
[Huazhong University of Science & Technology & Tencent PCG]
自适应掩码图像建模预训练Vanilla视觉Transformer用于目标检测。本文提出一种方法来有效地自适应掩码图像建模(MIM)预训练的Vanilla视觉Transformer(ViT)用于目标检测,基于两个新观察:(i) 一个掩码图像建模预训练的Vanilla ViT编码器可以在具有挑战性的物体级识别场景中工作得非常好,即使是随机采样的部分观察,例如,只有25%∼50%的输入序列。(ii) 为了构建用于目标检测的多尺度表示,一个随机初始化的紧凑卷积干代替了预训练的大核图块化干,其中间特征可以自然地作为特征金字塔的高分辨率输入,而不需要上采样。而预训练的ViT仅被视为检测器的3级骨干,而不是整个特征提取器,从而形成了ConvNet-ViT混合架构。所提出的检测器MIMDET,使MIM预训练的vanilla ViT在COCO上的表现优于层次化的Swin Transformer 2.3 APbox和2.5 APmask,并且与其他自适应的vanilla ViT相比,使用更适度的微调配方取得更好的结果,同时收敛速度快2.8倍。
MixFormer: Mixing Features across Windows and Dimensions
MixFormer:跨窗口跨维度特征混合
CVPR2022 Oral
[Baidu VIS & Chinese Academy of Sciences]
https://arxiv.org/abs/2204.02557
https://github.com/PaddlePaddle/PaddleClas
虽然局部窗口自我注意在视觉任务中表现显著,但它存在接受域有限和建模能力弱的问题。这主要是因为它在非重叠窗口内进行自我注意,并在通道维度上共享权重。我们建议MixFormer找到解决方案。首先,我们在并行设计中将局部窗口自我注意与深度卷积相结合,建模跨窗口连接以扩大感受野。其次,我们提出了跨分支的双向交互,以提供通道和空间维度的补充线索。这两种设计相结合,以实现窗口和维度之间的有效特征混合。我们的MixFormer在图像分类方面提供了与EfficientNet竞争的结果,并且显示出比RegNet和Swin Transformer更好的结果。在MS COCO、ADE20k和LVIS上的5个密集预测任务中,下游任务的性能显著优于替代任务,且计算成本较低。代码位于\url{this https url}。
MultiMAE: Multi-modal Multi-task Masked Autoencoders
https://arxiv.org/abs/2204.01678
MultiMAE:多模态多任务掩码自编码器。本文提出一种名为多模态多任务掩码自编码器(MultiMAE)的预训练策略。在两个关键方面与标准掩码自编码不同:I)可以选择接受RGB图像以外的其他模态的输入信息("多模态"),以及 II)训练目标相应地包括预测RGB图像以外的多个输出("多任务")。利用掩码(跨图像块和输入模态)使MultiMAE的训练具有可操作性,并确保跨模态预测编码确实被网络学习。这种预训练策略得到了一个灵活、简单、高效的框架,改善了对下游任务的迁移结果。当RGB图像以外的其他信息可用时,或者当RGB以外的信息不可用时,可以灵活地使用相同的预训练网络——在所有配置中,产生与基线竞争或明显更好的结果。为避免需要多种模态和任务的训练数据集,本文完全用伪标签来训练MultiMAE,使得该框架广泛适用于任何RGB数据集。实验在多个迁移任务(图像分类、语义分割、深度估计)和数据集(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)上进行。实验结果显示,该模型在跨模态/任务预测编码和迁移方面的能力令人印象深刻。
Training Compute-Optimal Large Language Models
https://arxiv.org/abs/2203.15556
[DeepMind]
计算优化大型语言模型训练。本文研究了在给定计算预算下,训练Transformer语言模型的最佳模型大小和Token数量。目前的大型语言模型训练不足,这是最近关注在保持训练数据量不变的情况下扩展语言模型的结果。通过在5000亿个Token上训练7000万到160亿参数的语言模型,对于计算最优的训练,模型的大小和训练Token的数量应该是等比例的:模型大小每增加一倍,训练Token的数量也应该增加一倍。通过训练一个预测的最佳计算模型chinchilla来测试该假设,使用与gopher相同的计算预算,但有700B的参数和4倍以上的数据。chinchilla在大范围的下游评估任务上均匀且明显地超过了Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和Megatron-Turing NLG(530B)。这也意味着,chinchilla用于微调和推理的计算量大大减少,极大促进了下游的使用。作为亮点,chinchilla在MMLU基准上达到了67.5%的平均精度,比gopher提高了7%以上。
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
VideoMAE:掩码自编码器是自监督视频预训练的数据高效学习器
https://arxiv.org/abs/2203.12602
Focal Modulation Networks
https://arxiv.org/abs/2203.11926 https://github.com/microsoft/FocalNet
[Microsoft Research]
焦点调制网络。本文提出焦点调制网络(FocalNet),其中自注意力(SA)完全被焦点调制模块所取代,该模块在建模Token互动方面更有效也更高效。焦点调制包括三部分。(i) 分层语境化,使用深度卷积层堆栈实现,以不同粒度水平对短程到长程视觉语境进行编码,(ii) 门控聚合,根据每个视觉Token(查询)的内容有选择地聚合语境特征,以及(iii) 调制或元素级仿射变换,将聚合特征融合到查询向量中。广泛实验表明,FocalNets在图像分类、目标检测和语义分割等任务上表现优于最先进的自注意力模型(如Swin Transformers),其时间和内存成本相似。FocalNets在ImageNet-1K上的微小尺寸和基础尺寸分别达到82.3%和83.9%的最高准确率。在ImageNet-22K上预训练后,在分辨率为224×224和384×384的情况下,分别达到了86.5%和87.3%的最高精度。当迁移到下游任务时,FocalNets表现出明显的优越性。对于用UperNet进行的语义分割,以单尺度评估的FocalNet基础超过了以多尺度评估的Swin(50.5 v. 49.7)。这些结果使焦点调制成为现实世界应用中有效和高效的视觉建模的自注意力的有利替代方案
ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer
ScalableViT:视觉Transformer面向上下文泛化的反思
https://weibo.com/1402400261/Ll0vFfOh6
MetaFormer: A Unified Meta Framework for Fine-Grained Recognition
MetaFormer:细粒度识别统一元框架
https://weibo.com/1402400261/LkHCed29n
Block-Recurrent Transformers
[Google Research & The Swiss AI Lab IDSIA]
https://arxiv.org/abs/2203.07852
块-递归Transformer。本文提出块-递归Transformer,以递归方式沿序列应用Transformer层,相对序列长度具有线性复杂性。所提出的递归单元对token块而不是单个token进行操作,利用块内的并行计算,有效利用加速器硬件。该单元本身非常简单,仅仅是一个Transformer层:用自注意力和交叉注意力有效计算一大组状态向量和token的循环函数。设计部分受到了LSTM单元的启发,采用LSTM风格的门,但将典型的LSTM单元放大了几个数量级。对递归的实现在计算时间和参数数量上与传统的Transformer层有相同的成本,但在非常长序列上的语言建模任务中提供了极大的改进。所提出模型比长程的Transformer XL基线要好得多,而运行速度是其两倍。
Efficient Language Modeling with Sparse all-MLP
基于稀疏全MLP的高效语言建模。作为基于注意力模型的替代,全MLP架构引起了越来越多的兴趣。在NLP中,最近的工作如gMLP表明,全MLP在语言建模方面可以与Transformer相媲美,但在下游任务中仍然落后。本文分析了MLP在表现力方面的局限,并提出在特征和输入(Token)维度上具有专家混合(MoE)的稀疏激活MLP。这种稀疏全MLP大大增加了模型的容量和表现力,同时保持计算量不变。用两种路由策略来解决纳入条件计算的关键挑战。与基于Transformer的MoE(GShard、Switch Transformer、Base Layers和HASH Layers)及稠密Transformer和全MLP相比,所提出的稀疏全MLP改善了语言建模的困惑度,获得了高达2倍的训练效率提升。评估了它在六个下游任务上的零次学习性能,发现它超过了基于Transformer的MoE和稠密Transformer。
ActiveMLP: An MLP-like Architecture with Active Token Mixer
ActiveMLP:基于主动Token混合器的类MLP架构。本文提出ActiveMLP,一种用于计算机视觉的类似MLP的通用骨干网。现有的三种主流网络族,即CNN、Transformers和MLP,主要是在将上下文信息融合到一个给定Token中的方式上有所不同,这使得设计更有效的Token混合机制,成为骨干架构发展的核心问题。在ActiveMLP中,本文提出一种创新的Token混合器,称为主动Token混合器(ATM),以主动将全局范围内其他Token的上下文信息纳入给定Token。这个基础操作子主动预测在哪里捕获有用的上下文,并学习如何将捕获的上下文与给定Token的原始信息在通道层面上融合。这样,Token混合的空间范围被扩大,Token混合的方式被革新。通过这种设计,ActiveMLP被赋予了全局感受野和更灵活的内容适应性信息融合的优点。广泛的实验表明,ActiveMLP是普遍适用的,并且在广泛的视觉任务上,包括视觉识别和稠密预测任务上,以明显的优势全面超越了不同系列的SOTA视觉骨干。
projUNN: efficient method for training deep networks with unitary matrices
B Kiani, R Balestriero, Y Lecun, S Lloyd
projUNN:基于酉矩阵的深度网络高效训练方法。在用递归或非常深的前馈网络学习时,在每一层采用酉矩阵可以非常有效地保持长程稳定性。然而,将网络参数限制为酉矩阵通常要以昂贵的参数化或增加训练运行时间为代价。本文提出一种基于rank-k更新(或rank-k近似)的有效方法——可在接近最优训练运行时间保持性能,在训练神经网络架构时不需要牺牲性能或运行时间。提出了这种方法的两个变体,即直接投影神经网络(projUNN-D)和切线投影神经网络(projUNN-T),以对全N维酉矩阵或正交矩阵进行参数化,训练运行时间缩短到O(kN)。该方法是将低秩梯度投射到最接近的酉矩阵上(projUNN-T),或者将酉矩阵按照低秩梯度的方向传输(projUNN-D)。即使在最快的设置下(k=1),projUNN也能够训练模型的单位参数,以达到与基线实现相媲美的性能。通过将projUNN算法整合到递归和卷积神经网络中,模型可以匹配或超过最先进算法的基准结果。
LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models
LiteTransformerSearch:面向高效自回归语言模型的免训练设备端搜索
https://weibo.com/1402400261/Ljl056Xjo
HyperMixer: An MLP-based Green AI Alternative to Transformers
HyperMixer:基于MLP替代Transformer迈向绿色人工智能。基于Transformer的架构是自然语言理解的首选模型,但它们的成本很高,因为在输入长度上具有二次复杂度,而且难以微调。在追求绿色人工智能的过程中,本文研究了简单的基于MLP的架构。发现现有的架构,如MLPMixer,通过独立应用于每个特征的静态MLP来实现token混合,过于脱离自然语言理解所需的归纳偏差。本文提出一种简单的变体——HyperMixer,用超网络动态形成标记混合MLP,具有与Transformer相似的归纳偏差。实验证明所提出模型比其他基于MLP的模型表现得更好,且与Transformer相当。与Transformers相比,HyperMixer在处理时间、训练数据和超参数调整方面的成本大大降低,标志着在绿色人工智能方面取得了重大进展。
EdgeFormer: Improving Light-weight ConvNets by Learning from Vision Transformers
https://github.com/hkzhang91/EdgeFormer
EdgeFormer:向视觉Transformer学习改进轻量卷积网络。最近,视觉Transformer开始显示出令人印象深刻的结果,其性能明显优于基于卷积的大型模型。然而,在用于移动或资源受限设备的小型模型领域,ConvNet在性能和模型复杂度方面仍有自己的优势。本文提出EdgeFormer,一种纯粹基于ConvNet的骨干模型,通过将视觉Transformer的优点融合到ConvNets中,进一步加强了这些优势。提出了带有位置嵌入的全局循环卷积(GCC),一种轻量卷积运算,拥有全局感受野,同时产生了像局部卷积那样的位置敏感特征。将GCC和squeezeexictation操作结合起来,形成一个类似于元生成器的模型块,具有类似于Transformer的注意里机制。上述块可以用即插即用的方式替代ConvNets或Transformer中的相关块。实验结果表明,在常见的视觉任务和数据集中,所提出的EdgeFormer比流行的轻量ConvNets和基于视觉Transformer的模型取得了更好的性能,同时参数更少,推理速度更快。对于ImageNet-1k的分类,EdgeFormer以大约500万个参数达到了78.6%的最高准确率,与MobileViT相比,节省了11%的参数和13%的计算成本,但获得了0.2%的高准确率和23%的快推理速度(基于ARM的Rockchip RK3288),与DeIT相比,只使用了0.5倍的参数,但获得了2.7%的准确率。在MS-COCO物体检测和PASCAL VOC分割任务上,EdgeFormer也显示出更好的性能。