aikeke，3月9日-5月16日

3D Moments from Near-Duplicate Photos

Q Wang, Z Li, D Salesin, N Snavely, B Curless, J Kontkanen

高度近似照片的3D时刻。我们介绍3D时刻(3D Moments)，一种新的计算摄影效果。用一对近乎重复的照片作为输入，即在人们的照片集中常见的从类似视角拍摄的移动目标的照片。制作一个视频作为输出，将场景的运动从第一张照片平滑地插到第二张照片上，同时产生具有视差的相机运动，给人以更高的3D感。为达到这种效果，将场景表示为一对基于特征的分层深度图像，并辅以场景流。该表示方法使运动插值与摄像机视角的独立控制相结合。该系统产生了具有运动视差和场景动态的逼真的时空视频，同时合理恢复了原始视图中被遮挡的区域。广泛的实验证明，在公共数据集和野外照片上的性能均优于基线。

A Generalist Agent

https://arxiv.org/abs/2205.06175 [DeepMind]

全能型智能体。受大规模语言建模进展的启发，本文采用类似方法建立了一个超越文本输出域的单个通用智能体，称为Gato，作为一个多模态、多任务、多具身通用策略工作。具有相同权重的同一个网络可以玩雅达利游戏、对图像进行描述、聊天、用真正的机器手臂堆积木等等，根据其上下文决定是否输出文本、关节扭力、按按钮或其他Token。本报告描述了模型和数据，并记录了Gato的当前能力。

Unifying Language Learning Paradigms

https://arxiv.org/abs/2205.05131 [Google Research]

统一的语言学习范式。现有的预训练模型，一般都是针对某一类问题的。到目前为止，对于什么是正确的架构和预训练设置，似乎仍然没有共识。本文提出一种统一的预训练模型框架，在不同的数据集和设置中都是有效的。将架构原型与预训练目标分开，这两个概念通常被混为一谈。为NLP中的自监督提出一种普遍而统一的观点，并展示了不同的预训练目标是如何相互投射的，以及不同目标之间的插值是如何奏效的。本文提出Mixture-of-Denoisers（MoD），一种将不同的预训练范式结合起来的预训练目标。提出了模式切换的概念，下游的微调与特定的预训练方案相关。进行了广泛的消融实验来比较多种预训练目标，发现所提出方法在多种不同的设置中超越了T5和/或类似GPT的模型，从而推动了Pareto-frontier的发展。将所提出模型扩展到20B参数，在50个公认的有监督NLP任务上取得了SOTA性能，这些任务包括语言生成(自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。所提出模型在语境学习方面也取得了很好的效果，在零次SuperGLUE上超过了175B GPT-3，在单次摘要上是T5-XXL性能的三倍。

Data Distributional Properties Drive Emergent Few-Shot Learning in Transformers

https://arxiv.org/abs/2205.05055 [DeepMind & University College London]

数据分布特性有助于Transformer的少次学习。基于Transformer的大型语言模型能进行少次学习(也称为上下文学习)，而无需经过明确的训练。本文假设，自然语言的特定分布特性可能会驱动这一新兴现象，因为这些特性可能会导致一种介于少次元训练(旨在引发快速的少次学习)和标准的监督训练(旨在引起渐进的上下文学习)之间的训练。本文还假设，这些分布特性可能导致在语言以外的领域出现少次学习。在该想法的启发下，在一个标准的基于图像的少次数据集上进行了一系列实验。发现一些数据属性确实促进了Transformer模型中少次学习的出现。所有这些属性都存在于自然语言中——突发性、长尾性、以及多对一或一对多的标签映射。这些数据影响了模型是否偏向于少次学习和记忆其权重中的信息；模型通常只能在其中一个方面表现良好。一个额外的分布属性可以让这两种能力在同一个模型中共存——一种倾斜的、Zipfian的类别分布——这也发生在语言中。值得注意的是，能在Transformer中引起少次学习的训练数据无法在递归模型中引起少次学习。本文发现，只有将正确的架构应用于正确的数据分布，才会达成少次学习；任何一个组成部分单独来看都是不够的。

KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

https://arxiv.org/abs/2205.04992 [ETH Zurich & Reality Labs Research]

KeypointNeRF：基于关键点相对空间编码的图像体化头像泛化。基于图像的体化头像，使用像素对齐的特征，有望泛化为未见过的姿态和身份。先前的工作利用全局空间编码和多视图几何一致性来减少空间歧义性。然而，全局编码经常收到对训练数据分布过拟合的影响，而且很难从稀疏视图中学习多视图一致性重建。本文研究了现有空间编码的常见问题，提出一种简单高效的方法，从仅有的两张输入图像中建立高保真体化头像模型。其中一个关键想法是通过稀疏3D关键点来编码相对空间3D信息，该方法对视角的稀疏性和跨数据集领域的差距具有鲁棒性，能更好地适用于具有挑战性的域外输入，如在真实场景用iPhone拍摄的自拍。所提出方法在头部重建方面优于最先进的方法，由于不需要参数化的模板网格，可以不加修改地应用于人体重建的任务，并取得与更复杂的、必须依靠参数化人体模型和时间特征聚合的之前工作相媲美的性能。在对未见过的受试者进行人体重建时，也取得了与之前用参数化人体模型和时间特征聚合的工作相当的性能。实验表明，之前工作中的大部分错误都源于对空间编码的不恰当选择，本文为基于图像的高保真头像建模提出了一个新的方向。

Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation

https://arxiv.org/abs/2205.04334 [Google Research] CVPR 2022

泛视神经场：语义对象感知神经场景表示。本文提出了泛视神经场(PNF)，一种物体感知神经场景表示，将场景分解为一组对象(事物)和背景(东西)。每个对象由一个定向的三维边框和一个多层感知器(MLP)表示，该感知器获取位置、方向和时间并输出密度和辐射度。背景的东西由一个类似的MLP表示，另外还输出语义标签。每个对象的MLP都是特定于实例的，因此比之前的对象感知方法更小、更快，同时仍然利用通过元学习初始化纳入的特定类别先验。该模型仅从彩色图像中建立任意场景的全景辐射场表示。该可以被查询以获得任何3D点的颜色、密度、实例和类标签。用现成的算法来预测相机位置、目标轨迹和2D图像语义分割。利用彩色图像自监督和预测的语义分割的伪监督，通过综合分析来联合优化MLP权重和边框参数。在真实世界动态场景的实验中，该模型可有效地用于一些任务，如新视图合成、2D全景分割、3D场景编辑和多视图深度预测。

NeuralHDHair: Automatic High-fidelity Hair Modeling from a Single Image Using Implicit Neural Representations

https://arxiv.org/abs/2205.04175 [Zhejiang University & ETH Zurich & City University of Hong Kong]

NeuralHDHair：用隐神经表示从单幅图像中自动建立高保真头发模型。毋庸置疑，高保真3D维头发在数字人中扮演着不可或缺的角色。然而，现有的单目毛发建模方法要么难以在数字系统中部署(例如，由于依赖于复杂的用户交互或大型数据库)，要么只能产生一个粗略的几何形状。本文提出NeuralHDHair，一种灵活的、全自动的系统，用于从单幅图像建立高保真头发模型。该系统的关键是两个精心设计的神经网络：IRHairNet(神经网络头发隐表示法)，用于分层推断高保真3D头发的几何特征(3D方向场和3D占位场)；GrowingNet(用神经网络生长发丝)，用于有效并行生成3D发丝。以从粗到细的方式，并提出了一种新的体素对齐隐函数(VIFu)来表示全局头发特征，通过从头发亮度图中提取的局部细节来进一步加强。为提高传统头发生长算法的效率，采用一种局部神经隐函数，根据估计的3D头发几何特征来生长发丝。大量实验表明，所提出方法能有效地从单幅图像构建高保真3D头发模型，并达到了最先进的性能。

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

超越预训练目标检测器：面向图像描述的跨模态文本和视觉上下文

[Georgia Tech] https://arxiv.org/abs/2205.04363

CLIP-CLOP: CLIP-Guided Collage and Photomontage

https://arxiv.org/abs/2205.03146 [DeepMind]

CLIP-CLOP：CLIP引导的拼贴和合成照片。大规模神经网络有增无减的神秘感，如CLIP图像-文本双向编码器，普及了自动生成的艺术。越来越复杂的生成器增强了艺术作品的真实性和视觉外观，而创造性提示工程使风格表达成为可能。在艺术家的理想指导下，本文设计了一种基于梯度的生成器来制作拼贴画，并将其与流行的图像-文本双向编码器(如CLIP)结合起来，它要求人类艺术家策划图像补块库，并(通过提示)描述整个图像构成，在生成过程中可以选择手动调整图块位置，从而使人类能够重新获得对过程的一些控制权，实现更大的创作自由。

Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)

https://arxiv.org/abs/2205.01397 [University of Washington & Amazon & Allen Institute for Artificial Intelligence]

数据决定了对比语言图像预训练(CLIP)的分布鲁棒性。对比训练的图像-文本模型，如CLIP、ALIGN和BASIC，对多种具有挑战性的自然分布变化表现出前所未有的鲁棒性。由于这些图像-文本模型在几个方面与之前的训练方法不同，一个重要的问题是什么带来了巨大的鲁棒性收益。本文通过一个系统的实验调查来回答这个问题，研究了导致鲁棒性提高的五种不同的可能原因：（i）训练集大小，（ii）训练分布，（iii）训练时的语言监督，（iv）测试时的语言监督，以及（v）对比损失函数。实验表明，更多样化的训练分布是鲁棒性提高的主要原因，其他因素对鲁棒性的贡献很小甚至没有。除了实验结果，本文还介绍了ImageNet-Captions，一个带有Flickr原始文本标注的ImageNet版本，以便对语言-图像训练进行进一步的控制实验。

CoCa: Contrastive Captioners are Image-Text Foundation Models

https://arxiv.org/abs/2205.01917 [Google Research]

CoCa: 视觉预训练范式与自然语言监督相结合的图像-文本基础模型族。探索大规的预训练基础模型在计算机视觉中具有重要的意义，因为这些模型可以快速迁移到许多下游任务中。本文提出对比图像描述器(CoCa)，一种最小化设计，将图像-文本编-解码器基础模型与对比损失和图片描述损失联合起来进行预训练，从而将来自CLIP等对比方法和SimVLM等生成方法的模型能力归纳起来。与标准的编-解码器Transformer相比，所有解码器层都关注编码器的输出，CoCa在解码器层的前半部分省略了交叉注意力，以编码单模态文本表示，并将其余的解码器层级联起来，交叉关注图像编码器的多模态图像-文本表示。在单模态图像和文本嵌入之间应用了对比损失，此外还在多模态解码器输出上应用了描述损失，该损失可自动预测文本Token。通过共享相同的计算图，这两个训练目标的计算效率很高，开销最小。CoCa在网络规模的alt-text数据和有标注的图像上进行了端到端的预训练，将所有标签简单地视为文本，无缝地将自然语言监督与表示学习统一起来。从经验上看，CoCa在广泛的下游任务上实现了最先进的性能，包括视觉识别(ImageNet、Kinetics400/600/700、Moments-in-Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像描述(MSCOCO、NoCaps)。值得注意的是，在ImageNet的分类中，CoCa获得了86.3%的零次顶级准确率，使用冻结的编码器和学习的分类头获得了90.6%的准确率，使用微调的编码器在ImageNet上获得了最新的91.0%顶级准确率。

A Probabilistic Interpretation of Transformers

https://arxiv.org/abs/2205.01080 [ML Collective]

Transformer的概率解释。本文提出对Transformer的指数点积注意力的概率解释，以及基于指数族的对比学习。Transformer的注意力子层相当于对数规范化器的梯度上升步骤，也就是注意力的Hopfield理论中的对数和exp项。这个上升步骤带来了点的平行扩展，被来自层归一化的收缩所抵消了。本文还说明了所述理论和Hopfield理论的理论局限性，并提出了解决的方向。

Depth Estimation with Simplified Transformer

基于简化Transformer的深度估计 [NVIDIA] https://arxiv.org/abs/2204.13791

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

https://arxiv.org/abs/2204.12484 [The University of Sydney & JD Explore Academy]

ViTPose：人体姿态估计的简单视觉Transformer基线。最近，定制的视觉Transformer被用于人体种姿态估计，并通过精心设计的结构取得了卓越的性能。然而，目前还不清楚普通的视觉Transformer是否能促进姿态估计。本文迈出了回答这个问题的第一步，采用一个普通的、非层次化的视觉Transformer和简单的去卷积解码器，称为ViTPose，用于人体姿态估计。证明了一个带有MAE预训练的普通视觉Transformer在人体姿态估计数据集上进行微调后可以获得卓越的性能。ViTPose在模型大小方面具有良好的可扩展性，在输入分辨率和标记数量方面具有灵活性。此外，它可以很容易地使用未标记的种姿态数据进行预训练，而不需要大规模的上游ImageNet数据。最大的ViTPose模型基于ViTAE-G主干，有10亿参数，在MS COCO测试开发集上获得了最好的80.9 mAP，而集成模型进一步创造了人体姿态估计的新的最先进水平，81.1 mAP。

OPT: Open Pre-trained Transformer Language Models

OPT：开放预训练Transformer语言模型 [Meta AI] https://arxiv.org/abs/2205.01068

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

https://arxiv.org/abs/2204.14217 [Tsinghua University]

CogView2：基于层次Transformer的更快更好文本-图像生成。基于Transformer的文本到图像模型的发展，因其缓慢的生成和对高分辨率图像的复杂性而受到阻碍。本文提出一种基于层次Transformer和局部平行自回归生成的解决方案。用一个简单而灵活的自监督任务——跨模态通用语言模型(CogLM)来预训练一个6B参数的Transformer，并对其进行微调以实现快速的超分辨率。新的文本到图像系统CogView2，与目前最先进的DALLE-2相比，显示出非常有竞争力的生成，并自然支持图像上交互式文本指导的编辑。

Learning strides in convolutional neural networks

https://arxiv.org/abs/2202.01653 [PSL Research University & Google Research]

卷积神经网络步长学习。卷积神经网络通常包含几个降采样运算子，如步长卷积或池化层，用来逐步降低中间表示的分辨率。这提供了一些移位变量，同时降低了整个架构的计算复杂性。这种层的一个关键超参数是步长：下采样的整数因子。由于步长不可微，寻找最佳配置需要交叉验证或离散优化(如架构搜索)，会迅速变得难以承受，因为搜索空间随着下采样层的数量呈指数增长。因此，通过梯度下降探索该搜索空间，可以以较低的计算成本找到更好的配置。本文提出DiffStride，第一个具有可学习步长的下采样层，在傅里叶域中学习cropping mask的大小，从而有效地以可微方式是实现大小调整。在音频和图像分类方面的实验，表明了所提出解决方案的通用性和有效性：用DiffStride作为标准下采样层的替代，实现了更好的性能。在ResNet-18架构中引入DiffStride层可以在CIFAR10、CIFAR100和ImageNet上保持一致的高性能，即使训练从糟糕的随机步长配置开始。此外，将步长表述为可学习的变量能引入一个正则化项，以控制架构的计算复杂性。

PP-Matting: High-Accuracy Natural Image Matting

PP-Matting：高精度自然图像抠图 [Baidu Inc] https://arxiv.org/abs/2204.09433

Temporally Efficient Vision Transformer for Video Instance Segmentation

https://arxiv.org/abs/2204.08412

[Huazhong University of Science & Technology & Tencent PCG & International Digital Economy Academy (IDEA)]

面向视频实例分割的时间高效视觉Transformer。最近，视觉Transformer在图片级视觉识别任务上取得了巨大的成功。为高效模拟视频片段中的关键时间信息，本文提出一种用于视频实例分割的时间高效视觉Transformer(TeViT)。与之前基于Transformer的视觉方法不同，TeViT几乎是无卷积的，包含一个Transformer主干和一个基于查询的视频实例分割头。在骨干阶段，提出一种几乎无参数的messenger偏移机制，用于早期的时间上下文融合。在头部阶段，提出一种参数共享的时空查询交互机制，以建立视频实例和查询之间的一对一对应关系。TeViT充分利用了帧级和实例级的时空信息，以可忽略不计的额外计算成本获得了强大的时空建模能力。在三个广泛采用的VIS基准，即YouTube-VIS-2019、YouTube-VIS-2021和OVIS上，TeViT获得了最先进的结果，并保持了较高的推理速度，例如，在YouTube-VIS-2019上以68.9 FPS获得46.6 AP。

An Extendable, Efficient and Effective Transformer-based Object Detector

https://arxiv.org/abs/2204.07962 [NAVER AI Lab & Google]

可扩展有效且高效的Transformer目标检测器。Transformer已被广泛用于许多视觉问题中，特别是视觉识别和检测。检测Transformer是第一个用于目标检测的完全端到端的学习系统，而视觉Transformer是第一个用于图像分类的完全基于Transformer的架构。本文整合了视觉和检测Transformer(ViDT)来构建一个有效和高效的目标检测器。ViDT引入一个重新配置的注意力模块，将最近的Swin Transformer扩展为一个独立的目标检测器，然后是一个计算高效的Transformer解码器，利用多尺度特征和辅助技术来提高检测性能，而不增加太多计算负荷。将其扩展到ViDT+，以支持目标检测和实例分割的联合任务学习。附加了一个有效的多尺度特征融合层，并利用两个更多的辅助训练损失，即IoU感知损失和标记损失。对微软COCO基准数据集的广泛评估结果表明，ViDT在现有的完全基于Transformer的目标检测器中获得了最佳的AP和延迟权衡，由于其对大型模型的高可扩展性，其扩展的ViDT+实现了53.2AP。

Masked Siamese Networks for Label-Efficient Learning

https://arxiv.org/abs/2204.07141 [Facebook AI Research]

基于掩码孪生网络的标签高效学习。本文提出掩码孪生网络(MSN)，一种用于学习图像表示的自监督学习框架。所提出方法将包含随机掩码图块的图像视图表示与原始未掩码图像表示相匹配。这种自监督预训练策略在应用于视觉Transformers时特别具有可扩展性，因为网络只处理未被掩码的图块。因此，MSN提高了联合嵌入架构的可扩展性，同时产生了高语义水平的表示，在低照度图像分类中表现出竞争性。例如，在ImageNet-1K上，只有5,000张标注图像，所提出的基础MSN模型达到了72.4%的最高准确率，而在ImageNet-1K的1%的标签下，达到了75.7%的最高准确率，为这个基准的自监督学习设定了一个新的先进水平。

Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From Learned Pairwise Affinity

开放世界实例分割：基于习得成对亲和力的伪真值利用 https://arxiv.org/abs/2204.06107

Unified Contrastive Learning in Image-Text-Label Space

https://arxiv.org/abs/2204.03610 [Microsoft Research at Redmond & Microsoft Cloud + AI]

图像-文本-标签空间统一对比学习。视觉识别最近通过对rren人工标注的图像标签数据进行监督学习，或者通过网络抓取图像-文本对进行语言-图像对比学习。虽然监督学习可能会产生一个更具鉴别力的表示，但语言-图像预训练显示出前所未有的零次识别能力，这主要是由于数据源和学习目标的不同特性。本文通过将两个数据源合并到一个共同的图像-文本-标签空间，引入一个新的表述。在该空间中，提出了一种新的学习范式，统一对比学习(UniCL)，具有单一的学习目标，可以无缝地促使两种数据类型协同作用。实验表明，UniCL是一种学习语义丰富又有鉴别力的表示的有效方式，普遍适用于零次、线性探测、全微调和迁移学习场景下的图像识别。在零次识别基准上，比语言-图像对比学习和监督学习方法分别获得了高达9.2%和14.5%的平均收益。在线性探测设置中，也比这两种方法分别提高了7.3%和3.4%的性能。UniCL在纯图像标签数据上是一个很好的学习器，在三个图像分类数据集和两种类型的视觉骨干--ResNet和Swin Transformer中，可与监督学习方法相媲美。

Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results

搞定ImageNet：训练任意主干获得最佳结果的统一方案 [DAMO Academy, Alibaba Group] https://arxiv.org/abs/2204.03475

The Effects of Regularization and Data Augmentation are Class Dependent

正则化和数据增强会牺牲在某些类上的性能 [Meta AI Research] https://arxiv.org/abs/2204.03632

Scaling Up Models and Data with t5x and seqio

用t5x和seqio扩展模型和数据 https://arxiv.org/abs/2203.17189

Last Layer Re-Training is Sufficient for Robustness to Spurious Correlations

[New York University]

用最后一层重训练提高对虚假相关的鲁棒性。神经网络分类器可能在很大程度上靠简单的虚假特征，如背景，来进行预测。然而，即使在这些情况下，本文表明它们仍然经常学习与数据的期望属性相关的核心特征，这与最近的研究结果相反。在这一见解的启发下，本文证明了简单的最后一层重训练可以在虚假相关基准上匹配或超过最先进的方法，但复杂性和计算费用却大大降低。对大型ImageNet训练模型进行最后一层重训练，也可以大大减少对背景和纹理信息的依赖，提高对协变量漂移的鲁棒性，而在单个GPU上的训练只需要几分钟。

Hierarchical Text-Conditional Image Generation with CLIP Latents

https://cdn.openai.com/papers/dall-e-2.pdf [OpenAI]

基于CLIP潜表示的层次文本条件图像生成。像CLIP这样的对比性模型已经证明可以学习鲁棒的图像表示，可以捕捉语义和风格。为了利用这些表示来生成图像，本文提出一个两阶段模型：一个给定文本标题生成CLIP图像嵌入的先验，以及一个以图像嵌入为条件生成图像的解码器。明确地生成图像表示提高了图像的多样性，在逼真度和标题的相似性方面损失最小。以图像表示为条件的解码器也可以产生图像变化，保留其语义和风格，同时改变图像表示中没有的非必要细节。对解码器使用扩散模型，并对先验的自回归和扩散模型进行实验，发现后者在计算上更有效，并能产生更高质量的样本。

SinNeRF: Training Neural Radiance Fields on Complex Scenes from a Single Image

SinNeRF：用单幅图像训练复杂场景神经辐射场。尽管神经辐射场(NeRF)发展迅速，但稠密覆盖的必要性在很大程度上阻碍了其更广泛的应用。虽然最近有几项工作试图解决该问题，但它们要么是在稀疏的视图上操作，要么是在简单的目标/场景上操作。本文考虑了一个更加艰巨的任务：通过"只看一次"，即只用一个视图，在现实的复杂视觉场景中训练神经辐射场。为实现这一目标，本文提出一个由经过周到设计的语义和几何正则化组成的单视图NeRF(SinNeRF)框架。SinNeRF构建了一个半监督学习过程，引入并传播几何伪标记和语义伪标记来指导渐进训练过程。在复杂场景基准上进行了广泛的实验，包括NeRF合成数据集、局部光场融合数据集和DTU数据集。即使不对多视图数据集进行预训练，SinNeRF也能产生照片级真实的新视图合成结果。在单幅图像设置下，SinNeRF在所有情况下都明显优于目前最先进的NeRF基线。

https://arxiv.org/abs/2204.00928

SqueezeNeRF: Further factorized FastNeRF for memory-efficient inference

SqueezeNeRF：进一步分解FastNeRF以实现记忆高效推理 [Sony Group Corporation] https://arxiv.org/abs/2204.02585

Benchmarking Graphormer on Large-Scale Molecular Modeling Datasets

https://arxiv.org/abs/2203.04810

大规模分子建模数据集上的Graphormer基准测试。本文介绍了Graphormer最近的更新，包括架构设计的修改，以及对3D分子动力学模拟的自适应。通过这些简单的修改，Graphormer可以在大规模分子建模数据集上获得比vanilla架构更好的结果，并且在2D和3D分子图建模任务上可持续获得性能提升。在全局感受野和自适应聚合策略下，Graphormer比基于消息传递的经典GNN更强大。根据经验，Graphormer在KDD Cup 2021中使用的PCQM4M量子化学数据集上取得的MAE比最初报告的结果要小得多。同时，在最近的"开放催化剂挑战赛 "中大大超过了竞争对手，该挑战赛是NeurIPS 2021研讨会的一个竞赛项目，旨在用先进的人工智能模型为催化剂-吸附剂反应系统建模。

Neural Neighbor Style Transfer

神经近邻画风迁移。本文提出神经近邻画风迁移(NNST)，一条为艺术风格迁移提供最先进的质量、泛化性和竞争效率的管道。该方法是将从(待风格化)内容输入中提取的神经特征显式替换为风格样例的特征，再根据这些重新排列的特征合成最终输出。虽然该方法的核心与先前工作相似，但所提出的设计决定极大提高了最终的视觉质量。所提出方法有两个变种。NNST-D使用一个CNN来直接解码来自重新排列的风格特征的风格化输出；比基于优化的慢得多的方法提供了类似或更好的质量，超过了之前的快速前馈方法，只需要几秒钟就能完成512×512像素的输出风格化，对许多应用来说足够快。NNST-Opt，基于优化的变体，提供了更高的质量，尽管速度较低，在相同输入尺寸下需要超过30秒。将这两种NNST变体的风格化质量与之前的工作进行定性比较，并通过一个有400名参与者的大型用户研究，证实了所提出方法的优越性，还证明了NNST可用于视频风格化或扩展以支持额外的指导和更高的输出分辨率。

https://arxiv.org/abs/2203.13215

Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models

https://arxiv.org/abs/2203.17274

视觉提示：修改像素空间以自适应预训练模型。提示最近成为一种流行的范式，用于使语言模型自适应下游任务。这种方法不是对模型参数进行调整，也不添加特定任务的头，而是通过在模型输入中添加文本提示，来引导模型执行一个新任务。本文探讨了这样一个问题：能否用像素来创建提示？预训练好的视觉模型，能否仅通过在其输入中添加像素，来自适应一项新任务？提出了视觉提示，学习一个特定任务的图像扰动，从而使一个冻结的预训练模型在这个扰动的提示下执行一项新任务。只需改变几个像素，就足以使模型自适应新的任务和数据集，其表现与目前事实上的轻量级自适应方法——线性探测相当。视觉提示的惊人有效性为如何自适应视觉预训练模型提供了一种新视角，开辟了仅通过输入来自适应模型的可能性，与模型参数或输出不同，输入通常是在最终用户的控制之下。

Transformer Language Models without Positional Encodings Still Learn Positional Information

https://arxiv.org/abs/2203.16634

无明确位置编码的Transformer语言模型仍可学到位置信息。Transformer通常需要某种形式的位置编码，如位置嵌入，以处理自然语言序列。令人惊讶的是，本文发现没有任何明确位置编码的Transformer语言模型仍然可以与标准模型竞争，而且这种现象在不同的数据集、模型大小和序列长度中是鲁棒的。探测实验显示，这种模型在整个网络中获得了一种隐性的绝对位置概念，有效补偿了缺失信息。本文猜想，将注意力限制在序列一个方向上的因果注意力机制，将位置信息隐性注入到了Transformer。

Practical tradeoffs between memory, compute, and performance in learned optimizers

https://arxiv.org/abs/2203.11860 [Google Research & Meta]

习得优化器记忆计算与性能权衡。优化在开发机器学习系统中起着昂贵而关键的作用。对于习得优化器，常用的手工设计的优化器(如Adam或SGD)的少量超参数，被灵活的参数化函数所取代。对这些函数的参数进行优化，从而使所产生的习得优化器在选定的一类模型上满足目标损失最小化。习得优化器可以减少所需的训练步骤，改善最终的测试损失。但其训练成本很高，而且一旦训练完成，由于优化器本身的计算和记忆开销，使用起来也很昂贵。本文确定并量化了许多习得和手工设计的优化器的记忆、计算和性能权衡的设计特征，包括优化目标任务性能、与习得优化器相关的计算和记忆开销、训练时间、目标任务的选择以及对新任务的泛化。进一步利用这些分析来构建一个习得优化器，比之前的工作更快、更加内存高效。

MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection

MSTR：面向端到端人-物交互检测的多尺度Transformer https://arxiv.org/abs/2203.14709

SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation

https://arxiv.org/abs/2203.13312 CVPR2022

SharpContour: 面向准确高效实例分割的基于轮廓边界细化方法。在实例分割方面已经取得了很好的性能，但边界区域的质量仍然不能令人满意，这导致了对边界细化的关注。在实际应用中，一个理想的后处理细化方案需要准确、通用和高效。然而，现有的大多数方法都提出了像素化的细化方案，这些方案要么引入大量的计算成本，要么专门为不同的骨干模型设计。基于轮廓的模型是高效和通用的，可以与任何现有分割方法结合在一起，但它们经常产生过度平滑的轮廓，并倾向于在角区域失败。本文提出一种高效的基于轮廓的边界细化方法SharpContour，以解决边界区域的分割问题。设计了新的轮廓演化过程和实例感知的点分类器。所提出方法通过以离散方式更新偏移量来迭代变形轮廓。与现有轮廓演化方法不同，SharpContour更独立地估计每个偏移量，因此能预测出更清晰和准确的轮廓。值得注意的是，该方法是通用的，能以较小的计算成本与各种现有模型无缝衔接。实验表明，SharpContour在保持高效的同时实现了有竞争力的收益。

NeuMan: Neural Human Radiance Field from a Single Video

NeuMan：单个视频的神经人体辐射场学习 https://arxiv.org/abs/2203.12575

Language modeling via stochastic processes

基于随机过程的语言建模 https://arxiv.org/abs/2203.11370

MotionCLIP: Exposing Human Motion Generation to CLIP Space

MotionCLIP：结合CLIP潜空间的人体运动生成 https://arxiv.org/abs/2203.08063

Pseudo Label Is Better Than Human Label

https://arxiv.org/abs/2203.12668

伪标签胜过人工标签。最先进的自动语音识别(ASR)系统是用数万小时的标注语音数据训练的。人工转录是昂贵而耗时的。转录质量和一致性等因素会大大影响用这些数据训练的ASR模型的性能。本文表明可以通过利用最近的自监督和半监督学习技术来训练一个强大的教师模型，以产生高质量的伪标签。用JUST(无监督/有监督联合训练)和迭代的含噪学生教师训练来训练一个6亿参数的双向教师模型。该模型在语音搜索任务中取得了4.0%的单词错误率(WER)，比基准线相对好11.1%。通过使用这个强大的教师模型来产生高质量的伪标签进行训练，与使用人工标签相比，可以使流媒体模型的相对误码率减少13.6%(从5.9%到5.1%)。

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

https://arxiv.org/abs/2203.13131 [Meta AI Research]

制造场景：结合人工先验的基于场景文本-图像生成。最近的文本-图像生成方法在文本域和图像域之间提供了一种简单而令人兴奋的转换能力。虽然这些方法已经逐步提高了生成图像的保真度和文本的相关性，但仍有几个关键的问题没得到解决，限制了适用性和质量。本文提出一种新的文本到图像方法，通过以下方式解决这些问题：（1）启用一种简单的控制机制，以场景的形式补充文本；（2）引入一些元素，通过对关键图像区域(人脸和突出目标)采用特定领域知识，大大改善Token化过程；（3）为Transformer用例自适应无分类指导。所提出模型实现了最先进的FID和人工评估结果，具备生成512×512像素分辨率的高保真图像的能力，大大提高了视觉质量。通过场景可控性，引入了几种新的能力。(i) 场景编辑，(ii) 带锚点场景的文本编辑，(iii) 克服分布不均的文本提示，以及(iv) 故事插图的生成。

BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training

BigDetection：用于改进目标检测器预训练的大规模基准 [Fudan University & Amazon Inc] https://arxiv.org/abs/2203.13249

TinyMLOps: Operational Challenges for Widespread Edge AI Adoption

https://weibo.com/1402400261/Ll0lT8bib

4th Workshop on Parallel AI and Systems for the Edge (PAISE2022) paper

TinyMLOps：广泛边缘AI应用的运行挑战。在边缘设备上部署机器学习应用可以带来明显的好处，如改善可靠性、延迟和隐私，但也引入了一系列挑战。大多数工作都集中在边缘平台的有限计算资源上，但这并不是阻碍广泛采用的唯一瓶颈。本文列出了TinyML从业者在边缘设备上操作应用时可能需要考虑的其他几个挑战。本文专注于监测和管理应用等任务，也是MLOps平台的常见功能，展示了它们如何因边缘部署的分布式性质而变得复杂。讨论了边缘应用特有的问题，如保护模型的知识产权和验证其完整性。作为一个领域，TinyML仍然非常年轻，大多数工具和框架仍然处于早期阶段。希望本文能启发和指导TinyMLOps平台的发展，使TinyML能为开发者所接受，并可扩展到数十亿的边缘设备。

整篇论文唯一的图表

Transframer: Arbitrary Frame Prediction with Generative Models

https://weibo.com/1402400261/LkQNzrlu9 [DeepMind]

Transframer: 基于生成模型的任意帧预测。本文提出一种基于概率帧预测的图像建模和视觉任务通用框架。该方法统一了一系列广泛的任务，从图像分割到新视图合成和视频插值。将该框架与叫做Transframer的架构搭配，用U-Net和Transformer组件对标注的上下文帧进行调节，并输出稀疏、压缩图像特征的序列。Transframer在各种视频生成基准上都是最先进的，在少样本合成上与最强的模型相竞争，并能从一张图像中生成连贯的30秒视频，而没有任何显式的几何信息。一个单一的通用Transframer同时在8个任务上产生了有希望的结果，包括语义分割、图像分类和光流预测，没有任务特定架构组件，表明多任务计算机视觉可以用概率图像模型来解决。所提出方法原则上可应用于需要学习标注的图像格式化数据的条件结构的广泛应用。

The Mathematics of Artificial Intelligence

G Kutyniok https://weibo.com/1402400261/LkxVtrEs8

人工智能的数学基础。目前，我们见证了人工智能在科学和公共生活中的惊人成功。然而，严格的数学基础的发展仍处于早期阶段。在这篇基于2022年国际数学家大会特邀演讲的综述文章中，将特别关注目前人工智能的"主力"，即深度神经网络，重点介绍主要的理论方向以及几个示范性的结果，并讨论关键的开放问题。以人工智能的七个数学关键问题作为结论，这些问题构成了人工智能的数学基础及其子领域的表达性、优化、泛化和可解释性的主要障碍，也构成了面向数学问题的人工智能的主要障碍，后者侧重应用于逆问题和偏微分方程。

(1) 深度的作用是什么？

(2) 神经网络结构的哪些方面影响深度学习的性能？

(3) 为什么随机梯度下降能在问题的非凸性下收敛到良好的局部最小值？

(4) 为什么大型神经网络不会过拟合？

(5) 为什么神经网络在非常高维的环境中表现良好？

(6) 深度架构学习到数据的哪些特征？

(7) 神经网络是否能够取代自然科学中高度专业化的数值算法？

TensoRF: Tensorial Radiance Fields

TensoRF：张量辐射场。本文提出TensoRF，一种对辐射场进行建模和重建的新方法，利用张量分解技术，将辐射场紧凑地建模为因子化的低秩张量组件。与纯粹使用MLP的NeRF不同，将场景辐射场建模为一个4D张量，表示一个具有每体素多通道特征的3D体素网格。其核心思想是将4D场景张量分解为多个紧凑低秩张量成分。证明了在该框架中应用传统的CP分解——将张量分解为具有紧凑向量的单秩成分——会带来比普通NeRF更好的性能。为进一步提高性能，引入了一种新的矢量-矩阵(VM)分解，放松了张量两种模式的低秩约束，并将张量分解为紧凑的矢量和矩阵因子。除了卓越的渲染质量，所提出模型与CP和VM分解相比，直接优化每体素特征的之前和最新工作带来的显著的内存占用。实验证明，与NeRF相比，采用CP分解的TensoRF实现了快速重建(<30分钟)，具有更好的渲染质量，甚至更小的模型大小(<4 MB)。此外，采用VM分解的TensoRF进一步提高了渲染质量，超过了之前的最先进方法，同时减少了重建时间(<10分钟)并保留了紧凑的模型大小(<75 MB)。

Diffusion Probabilistic Modeling for Video Generation

面向视频生成的扩散概率建模 https://weibo.com/1402400261/LkoUCifSd

One Network Doesn't Rule Them All: Moving Beyond Handcrafted Architectures in Self-Supervised Learning

单个网络不能“包打天下”：面向自监督学习的“自监督架构”。目前关于自监督学习(SSL)的文献集中在开发学习目标，以便在未标记数据上更有效地训练神经网络。典型的开发过程包括采用成熟的架构，例如在ImageNet上展示的ResNet，并用它们来评估在下游场景中新开发的目标。虽然方便，但这并没有考虑到架构的作用，而架构在监督学习文献中已被证明是至关重要的。本文建立了广泛的经验证据，表明网络架构在SSL中发挥着重要作用，对超过100种ResNet和MobileNet架构的变体进行了大规模的研究，并在SSL环境下的11个下游场景中对它们进行了评估。没有一个网络在各个场景中表现得一致良好。在此基础上，建议在SSL机制中不仅要学习网络权重，还要学习架构拓扑。"自监督架构"优于流行的手工设计的架构(ResNet18和MobileNetV2)，同时在主要的图像分类基准(ImageNet-1K、iNat2021等)上与较大且计算量大的ResNet50竞争。结果表明，现在是时候考虑超越SSL中的手工架构，开始考虑将架构搜索纳入自监督学习目标。

Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

Delta Tuning：预训练语言模型参数高效方法综合研究

https://weibo.com/1402400261/Lkfh4r6gJ

Unsupervised Semantic Segmentation by Distilling Feature Correspondences

基于特征对应提炼的无监督语义分割 https://weibo.com/1402400261/LkfkpiVXw

CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment

[Harbin Institute of Technology & Microsoft Research]

CLIP模型是少次学习器：对VQA和视觉蕴涵的实证研究。在广泛的视觉任务上，CLIP已经显示出了非凡的零次学习能力。以前，CLIP只被认为是一个强大的视觉编码器。然而，在通过语言监督对大量的图像-标题对进行预训练后，CLIP本身也应该获得一些视觉-语言任务的少次能力。本文通过经验表明，CLIP可通过利用语言的力量成为一个强大的视觉-语言的少次学习器。评估了CLIP在一个典型的视觉问答任务上的零次性能，并证明了CLIP在视觉蕴涵任务上的零次跨模态迁移能力。提出一种参数高效的微调策略，以提高在VQA任务上的少次性能。在不引入任何额外的预训练程序的情况下，在视觉问答和视觉蕴涵任务上取得了有竞争力的零/少次结果。

The Role of ImageNet Classes in Fréchet Inception Distance

Fréchet Inception距离在ImageNet类上的真正作用。Fréchet Inception Distance(FID)是一个量化两个图像分布间距离的度量。鉴于其在数据驱动的生成模型研究中作为模型排续的标准尺度，该距离由一般的、与"视觉相关"的特征计算出来似乎很重要。但这是真的吗？本文观察到，FID本质上是ImageNet类概率集合间的距离。将原因追溯到这样一个事实：标准特征空间，即特定Inception-V3分类器网络的倒数第二"pre-logit"层，与logit(即ImageNet类)只有一次仿生变换的距离，因此，这些特征必然对其高度特定化。这对指标的敏感性有不直观的影响。例如，在评估人脸模型时，平均而言，FID实际上对人脸区域非常不敏感，而像 "领结"或"安全带 "这样类的概率则发挥了更大的作用。FID可以被大大降低——而实际上并没有提高结果的质量——通过一种攻击，首先产生一个稍大的候选集合，然后选择一个恰好与真实数据中这种"边缘特征"的直方图相匹配的子集。本文证明了这一观察在ImageNet预训练GANs的情况下具有实际意义，其中一部分观察到的FID改进被证明是不真实的。实验结果表明，要警惕对FID改进的过度解释，并强调需要有更多感知上统一的分布指标。

Conditional Prompt Learning for Vision-Language Models

视觉-语言模型的条件提示学习。随着像CLIP这样强大的预训练视觉-语言模型的兴起，研究如何使这些模型适应下游数据集变得至关重要。最近提出的一种名为"上下文优化"(CoOp)的方法将提示学习的概念——NLP的最新趋势引入视觉领域，以自适应预训练视觉-语言模型。具体来说，CoOp将提示中的上下文词转化为一组可学习的向量，并且只需要几张标记图像进行学习，就可以比稠密微调的人工提示有巨大的改进。本文发现CoOp的一个关键问题：学到的上下文不能推广到同一数据集内更多未见过的类别，这表明CoOp过拟合了训练期间观察到的基础类。为解决该问题，本文提出条件上下文优化(CoCoOp)，通过进一步学习一个轻量级的神经网络，为每张图片生成一个输入条件Token(向量)来扩展CoOp。与CoOp的静态提示相比，所提出的动态提示自适应于每个实例，因此对类的漂移不那么敏感。实验表明，CoCoP比CoOp对未见过类的泛化性要好得多，甚至显示出有望超越单一数据集的迁移性；并且产生更强的领域泛化性能。

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

模型汤：多个微调模型的平均权重可在不增加推理时间的情况下提高精度。传统最大化模型精度的方法是：（1）用不同的超参数训练多个模型；（2）挑选在保留验证集上表现最好的单个模型，抛弃其余模型。本文在微调大型预训练模型的背景下，重新审视了这一程序的第二步，微调后的模型往往位于一个单一的低误差盆地中。用不同的超参数配置对多个模型进行微调后，其权重的均值往往能提高精度和鲁棒性。与传统集合不同，可以在不产生任何额外推理或内存成本的情况下对许多模型进行平均化——把这种结果称为"模型汤"。当微调大型预训练模型，如CLIP、ALIGN和在JFT上预训练的ViT-G时，所提出的汤配方提供了比ImageNet上超参数扫描中的最佳模型更显著的改进。作为亮点，所产生的ViT-G模型在ImageNet上达到了90.94%的最高精度。该模型汤的方法可扩展到多个图像分类和自然语言处理任务，改善了分布外性能，并提高了新的下游任务的零样本性能。从分析上将加权平均法和Logit-ensembling的性能相似性与损失的平坦性和预测的置信联系起来，并从经验上验证了这种关系。

Towards Efficient and Scalable Sharpness-Aware Minimization

高效可扩展锐度感知最小化研究。最近，锐度感知最小化(SAM)将损失景观的几何形状和泛化联系在一起，在训练大规模模型(如视觉Transformer)时表现出明显的性能提升。然而，SAM的更新规则需要在每一步进行两次连续的(非并行)梯度计算，可能使计算开销增加一倍。本文提出一种新算法LookSAM，只周期性地计算内部梯度上升，可显著减少SAM的额外训练成本。经验结果表明，LookSAM实现了与SAM相似的精度提升，同时速度大大加快，享有与SGD或Adam等一阶优化器相当的计算复杂度。为进一步评估LookSAM的性能和可扩展性，加入了一个分层的修改，并在大批量训练的情况下进行了实验，这更容易收敛到尖锐的局部最小值。通过64k的批处理规模，能在几分钟内从头开始训练ViT，同时保持有竞争力的性能。

On the surprising tradeoff between ImageNet accuracy and perceptual similarity

[Google Research]

ImageNet上精度和感知相似度间意外的反相关关系。在预训练深度特征空间中测量的图像间的感知距离，在评估图像相似度方面已经超过了先前的低层的、基于像素的衡量标准。虽然旧的和不太准确的模型，如AlexNet和VGG捕捉感知相似性的能力是众所周知的，但现代的和更准确的模型却没有被研究。本文观察到现代网络如ResNets、EfficientNets和Vision Transformers在ImageNet上的精度和感知得分间存在惊人的反相关关系：即更好的分类器获得的感知得分更差。本文进行了一项大规模研究，考察了ImageNet的精度/感知分数在不同的深度、宽度、训练步数、权重衰退、标签平滑和dropout等方面的关系。更高的精度在一定程度上提高了感知分数，但在中高精度的情况下，精度和感知分数之间存在一个帕累托前沿。用失真不变性、空间频率敏感性和其他感知函数进一步探索这种关系，发现浅层ResNets，只在ImageNet上训练了不到5轮，其出现的Perceptual Score与之前直接在有监督人类知觉判断上训练的最佳网络相匹配。

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

基于零样本超参数迁移的大型神经网络调优。深度学习中的超参数(HP)调整是个昂贵的过程，对于具有数十亿参数的神经网络(NN)来说，这个过程令人望而却步。在最近发现的Maximal Update Parametrization(μP)中，即使模型大小发生变化，许多最优的超参数也保持稳定，有可能跨深度、批量大小、序列长度和训练时间进行迁移，这就导致了一种新的超参数调优范式μTransfer：在μP中对目标模型进行参数化，在较小的模型上间接地调优超参数，将它们零散地迁移到全尺寸模型上，根本无需直接调优后者。在Transformer和ResNet上验证了μTransfer。例如，1）通过从13M参数的模型中迁移预训练超参数，超过了BERT-large(350M参数)的公开指标，总的调优成本相当于预训练BERT-large一次；2）通过从40M参数迁移，超过了6.7B GPT-3模型的公开指标，调优成本仅占总预训练成本的7%。

aikeke，3月9日-5月16日

推荐阅读更多精彩内容