形状感知文本驱动分层视频编辑 Shape-aware Text-driven Layered Video Editing
Y Lee, J G Jang, Y Chen, E Qiu, J Huang
[University of Maryland]
https://arxiv.org/abs/2301.13173
https://text-video-edit.github.io/
要点:扩展了视频编辑方法以实现形状感知编辑;提出一种与帧相关的形状变形公式,以处理目标形状的编辑;用预训练扩散模型来指导分层视频表示中的图集补全。
一句话总结:提出一种形状感知的文本驱动视频编辑方法,扩展了现有视频编辑方法的能力,通过使用变形公式和预训练文本到图像扩散模型进行指导,实现形状感知的编辑。
渐进提示:语言模型的持续学习 Progressive Prompts: Continual Learning for Language Models
A Razdaibiedina, Y Mao, R Hou, M Khabsa, M Lewis, A Almahairi
[Meta AI & University of Toronto]
https://arxiv.org/abs/2301.12314
要点:提出一种在语言模型中进行持续学习(CL)的新方法,称为渐进提示;渐进提示缓解了灾难性遗忘,支持知识迁移到未来任务,同时学习总参数的一小部分;渐进提示适用于任何基于 Transformer 的架构,并且在 BERT 和 T5 模型的标准 CL 基准上优于最先进的 CL 方法。
一句话总结:渐进提示是一种新的、模型无关的、高效的语言模型持续学习方法,在标准基准上优于最先进的方法,不依赖数据回放或特定任务参数。
STAIR: Grounded Token稀疏文本和图像表示学习 STAIR: Learning Sparse Text and Image Representation in Grounded Tokens
C Chen, B Zhang, L Cao, J Shen, T Gunter, A M Jose, A Toshev, J Shlens, R Pang, Y Yang
[Apple Inc]
https://arxiv.org/abs/2301.13081
要点:提出 STAIR,一种稀疏文本和图像表示方法,将图像和文本输入编码为稀疏 token 空间中的稀疏嵌入;在图像-文本检索任务以及零样本和线性探测分类任务上优于CLIP模型;与稠密嵌入相比,稀疏嵌入对人来说更容易解释。
一句话总结:STAIR是一种稀疏文本和图像表示方法,在图像-文本检索任务和零样本分类任务上优于 CLIP 模型,同时提供可解释的稀疏嵌入。
Noise Scheduling 对扩散模型的重要性研究 On the Importance of Noise Scheduling for Diffusion Models
T Chen
[Google Research]
https://arxiv.org/abs/2301.10972
要点:Noise Scheduling 对扩散生成模型的性能至关重要,而最佳的噪声规划取决于任务;当图像大小增加时,最佳的 Noise Scheduling 会变得更加嘈杂;缩放输入数据时保持 Noise Scheduling 固定,是跨图像尺寸的一种好策略;将这种简单的缩放策略与递归接口网络(RIN)架构结合,能为高分辨率图像生成提供最先进的基于像素的扩散模型。
一句话总结:研究发现,noise scheduling 策略对去噪扩散生成模型的性能起着至关重要的作用,而最佳策略取决于任务(如图像大小)。
面向无监督目标检测和实例分割的剪切和学习 Cut and Learn for Unsupervised Object Detection and Instance Segmentation
X Wang, R Girdhar, S X. Yu, I Misra
[Meta AI & UC Berkeley]
https://arxiv.org/abs/2301.11320
https://github.com/facebookresearch/CutLER
http://people.eecs.berkeley.edu/~xdwang/projects/CutLER/
要点:CutLER 是一种训练无监督目标检测和分割模型的简单方法,利用自监督模型特性,在没有监督的情况下"发现"物体,并将其放大到训练一个最先进的定位模型,无需任何人工标签;CutLER 使用所提出的 MaskCut 方法为图像中的多个目标生成粗略掩码,用鲁棒损失函数在这些掩码上学习一个检测器,并通过对模型的预测进行自训练进一步提高性能;CutLER 与不同检测架构兼容,可以只在 ImageNet 上进行训练,而不需要领域内的无标签数据,因此,产生了一个能够检测和分割不同领域的多个物体的零样本模型。
一句话总结:提出 Cut-and-LEaRn(CutLER)方法,用于训练无监督目标检测和分割模型,该方法简单、鲁棒,可实习零样本,在不同领域的11个基准上比之前的工作要好 2.7 倍以上,与不同的检测架构兼容,并能检测多个物体。
StyleGAN-T: 基于改进 GAN 的快速大规模文本到图像合成 StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
A Sauer, T Karras, S Laine, A Geiger, T Aila
[University of Tubingen & NVIDIA]
https://arxiv.org/abs/2301.09515
要点:所提出的模型 StyleGAN-T 解决了大规模文本到图像合成的具体要求,如大容量、在不同数据集上的稳定训练、强文本对齐和可控的变化与文本对齐的权衡;StyleGAN-T 在样本质量和速度方面比之前的 GAN 有明显的改进,超过了蒸馏扩散模型——在此之前快速文本到图像合成的最先进技术;GAN 在文本-图像合成方面比其他模型更快,因为只需要一个前向通道。
一句话总结:提出的 StyleGAN-T 模型解决了大规模文本到图像合成的具体要求,在样本质量和速度方面优于之前的 GAN 和蒸馏扩散模型,GAN比其他模型的文本到图像合成速度更快。
摘要:由于大型预训练语言模型、大规模训练数据以及可扩展模型族(如扩散模型和自回归模型)的引入,文本-图像合成最近取得了重大进展。然而,表现最好的模型,需要迭代评估以生成一个样本。相比之下,生成对抗网络(GAN)只需要一次前向传播。因此速度要快得多,但目前在大规模文本到图像合成方面仍然远落后于最先进的水平。本文旨在确定重新获得竞争力的必要步骤。所提出的模型 StyleGAN-T 解决了大规模文本-图像合成的具体要求,如大容量、在不同数据集上的稳定训练、强文本对齐和可控的变化与文本对齐的权衡。StyleGAN-T在样本质量和速度方面明显优于之前的 GAN,且优于蒸馏扩散模型——这是之前快速文本到图像合成的最先进技术。
Zorro: 掩码多模态 Transformer Zorro: the masked multimodal transformer
A Recasens, J Lin, J Carreira, D Jaegle, L Wang, J Alayrac, P Luc, A Miech, L Smaira, R Hemsley, A Zisserman
[DeepMind]
https://arxiv.org/abs/2301.09595
要点:提出 Zorro,一种新的 Transformer 掩码配置,可以同时进行单模态和多模态的训练和推理,以及对比预训练;提出了用ViT、SWIN和HiP等最先进模型的基于Zorro的架构;Zorro 可以以自监督的方式,在大规模音频-视觉数据集上进行预训练,也可以在单模态数据集上进行预训练。
一句话总结:提出一种用于多模态处理的新型 Transformer 掩码配置 Zorro,在基准上展示了最先进的性能,并可同时进行单模态和多模态训练和推理。
摘要:基于注意力的模型对多模态处理很有吸引力,因为来自多种模态的输入可以被串联起来,并输入到一个主干网络中——因此需要很少的融合工程。然而,所产生的表示在整个网络中是完全纠缠在一起的,可能并不总是可取的:在学习中,对比性的音频-视觉自监督学习,需要独立的音频和视觉特征来操作,否则学习会坍缩;在推理中,音频-视觉模型的评估应该可以在只有音频或只有视频的基准上进行。本文提出 Zorro,一种使用掩码来控制每种模态输入如何在 Transformer 内被路由的技术,以保持表示的某些部分是纯模态的。将这种技术应用于三种流行的基于 Transformer 的架构(ViT、Swin和HiP),并表明在对比性预训练下,Zorro在大多数相关的多模态任务(AudioSet和VGGSound)的基准上取得了最先进的结果。此外,所得到的模型能在视频和音频基准上进行单模态推理,如Kinetics-400或ESC-50。
未见数据集上的蒸馏感知NAS元预测模型 Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets
https://openreview.net/forum?id=SEh5SfEQtqB
要点:提出一种跨数据集、架构和教师泛化的新的元预测模型,可以在蒸馏给定教师知识时准确预测架构性能;基于特定教师对学生的参数重映射和重映射学生的功能性嵌入,提出一种新的蒸馏感知任务编码;在异构不可见 DaNAS 任务的准确性估计方面优于现有的快速 NAS 方法。
一句话总结:提出一种跨数据集、体系结构和教师泛化的新的元预测模型,以便在蒸馏给定教师网络的知识时准确预测架构性能,在看未见数据集上优于现有的快速 NAS 方法。
摘要:蒸馏感知网络架构搜索(DaNAS),旨在搜索在从给定教师模型中蒸馏知识时,可获得最佳性能和/或效率的最佳学生架构。之前的 DaNAS 方法主要涉及寻找固定源/目标任务和教师的网络架构,这些任务在新任务上没有很好地泛化,因此需要对域和教师的新组合进行昂贵的搜索。对于没有 KD 的标准 NAS 任务,提出了基于元学习的计算高效 NAS 方法,该方法学习多个任务的广义搜索过程,并将这些任务获得的知识迁移到新任务中。然而,由于假设在没有老师 KD 的情况下从头开始学习,它们可能不适合 DaNAS 场景,这可能会显著影响从搜索中获得的架构的最终准确性。为了消除 DaNAS 方法的过度计算成本和快速 NAS 方法的次优性,本文提出一种基于蒸馏感知的元精度预测模型,可以预测给定架构在与给定教师执行 KD 时在数据集上的最终性能,而无需在目标任务上进行实际训练。实验结果表明,所提出的元预测模型成功地泛化到 DaNAS 任务的多个未见数据集,在很大程度上优于现有的元 NAS 方法和快速 NAS 基线。
基于联合嵌入预测架构的图像自监督学习 Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
M Assran, Q Duval, I Misra, P Bojanowski, P Vincent, M Rabbat, Y LeCun, N Ballas
[Meta AI]
https://arxiv.org/abs/2301.08243
要点:提出基于图像的联合嵌入预测架构(I-JEPA),一种从图像中自监督学习的非生成式方法;用掩码策略来预测图像中的多个目标块,用足够大规模、以及空间分布充分的上下文块;当与视觉 Transformer 相结合时,I-JEPA 在一系列任务中的可扩展性和强大的下游性能得到了实证演示。
一句话总结:I-JEPA 是一种非生成式方法,用于从图像进行自监督学习,采用掩码策略预测同一图像中多个目标块的表示,以高可扩展性和高效率在广泛的任务中实现了强大的下游性能。
摘要:本文展示了一种在不依赖手工制作的数据增强的情况下学习高度语义化图像表示的方法。提出了基于图像的联合嵌入预测架构(I-JEPA),一种从图像自监督学习的非生成式方法。I-JEPA 背后的想法很简单:从单个上下文块中预测同一图像中多个目标块的表示。指导 I-JEPA 产生语义表示的核心设计选择是掩码策略;最重要的是:(a) 预测图像中的多个目标块,(b) 足够大规模的目标块采样(占整个图像的15%-20%),以及 (c) 用信息量充足(空间分布足够分散)的上下文块。从经验上讲,当与视觉 Transformer 相结合时,I-JEPA 具有高度可扩展性。例如,在38小时内用32个 A100 GPU 在 ImageNet 上训练 ViT-Huge/16,以便在需要不同抽象级别的广泛任务中实现强大的下游性能,从线性分类到目标计数和深度预测。
图神经网络(GNN)综述 Everything is Connected: Graph Neural Networks
P Veličković
[DeepMind]
https://arxiv.org/abs/2301.08210
要点:图是自然界中数据的主要模态,用图结构的语言可以优雅地表示;图已经在关键的科学和工业领域使用,其应用包括交通预测、药物发现、社交网络分析和推荐系统等;前几年最成功的机器学习应用领域——图像、文本和语音处理——可以视为图表示学习的特殊案例;本文的主要目的,是使读者能够吸收该领域的关键概念,并在相关领域的适当背景下应用图表示学习。
一句话总结:图是自然界数据的主要模态,可用于多个领域,最成功的机器学习领域是图表示学习的特殊情况。本文旨在帮助读者了解该领域的关键概念和背景,并在合适的场景加以利用。
自监督无助于大规模自然语言监督 Self Supervision Does Not Help Natural Language Supervision at Scale
F Weers, V Shankar, A Katharopoulos, Y Yang, T Gunter
[Apple]
https://arxiv.org/abs/2301.07836
要点:调研自监督对大规模图像-文本训练的有效性,发现在14亿张图像的大型语料库上进训练时,自监督几乎没有收益;引入一种将标准自监督和语言监督技术相结合的直截了当的基线方法MAE-CLIP;实验发现,在高样本量状态下,ImageNet、VTAB和VQA任务的MAE-CLIP和CLIP之间的性能几乎没有差异。
一句话总结:这项工作发现大规模图像-文本训练的自监督几乎没有好处,研究了最先进的方法在低样本量和高样本量场景下的性能,自监督在高样本量场景下效果较差。
面向单视图重建的密度场 Behind the Scenes: Density Fields for Single View Reconstruction
F Wimbauer, N Yang, C Rupprecht, D Cremers
[Technical University of Munich & University of Oxford]
https://arxiv.org/abs/2301.07668
https://fwmb.github.io/bts/
要点:提出一种用预测隐密度场的神经网络,从单幅图像推断有意义几何场景表示的新方法;能捕捉真实的3D几何形状,包括颜色,但比神经辐射场(NeRF)等其他方法更简单、更易于处理;仅用视频数据的自监督进行训练,使得网络能在具有挑战性场景的大型实际场景数据集上进行训练;该方法能预测输入图像中被遮挡区域有意义的几何形状,并实现深度预测和新视图合成,达到与最先进方法可比的水平。
一句话总结:提出一种用预测隐密度场的神经网络从单幅图像推断 3D 几何的新方法,比其他方法更简单、更易于处理,仅用视频数据的自监督进行训练,能预测遮挡区域有意义的几何形状。
摘要:从单幅图像推断有意义的几何场景表示,是计算机视觉的一个基本问题。基于传统深度图预测的方法,只能推理图像中的可见区域。目前,神经辐射场(NeRF)可以捕获包括颜色在内的真实3D,但过于复杂,无法用单幅图像生成。作为替代方案,本文提出一种神经网络,从单幅图像预测隐密度场,将图像截头锥体每个位置映射成体密度。所提网络能通过仅视频数据的自监督进行训练。不将颜色存储在隐式体,而在训练期间直接从可用视图中采样颜色,相比 NeRF,所提场景表示不那么复杂,可以训练神经网络来进行预测。可以应用体渲染来执行深度预测和新视图合成。在所做的实验中,本文证明,所提出方法能预测输入图像中遮挡的区域的有意义的几何形状。本文还展示了在三个数据集上所提出方法在深度预测和新视图合成方面的潜力。
Laser: 3D生成建模的集值潜表示 Laser: Latent Set Representations for 3D Generative Modeling
P Moreno, A R. Kosiorek, H Strathmann, D Zoran, R G. Schneider, B Winckler, L Markeeva, T Weber, D J. Rezende
[DeepMind]
https://arxiv.org/abs/2301.05747
https://laser-nv-paper.github.io/
要点:提出一种由基于上下文视图的专用置换不变归一化流建模的新型集值潜表示;提出一种新的注意力机制,以设置值潜在以及从上下文视图计算的其他局部特征来调节场景功能。在各种数据集上的表现优于之前的模型,尤其是场景未观察部分存在高度不确定性时。
一句话总结:LASER-NV 是一种用归一化流建模的新型集值潜表示,采用几何感知注意力机制来实现高保真新视图合成,在各种数据集上的表现优于之前的模型,尤其是场景未观察部分存在高度不确定性时。
摘要:NeRF为新视图合成提供了优秀的保真度:从任意角度渲染3D场景。NeRF需要对大量完全覆盖场景的视图进行训练,这限制了其适用性。虽然这些问题可以通过以各种形式学习先验场景来解决,但之前的方法要么适用于过于简单的场景,要么努力渲染未观察到的部分。本文提出 Laser-NV:一种实现高建模能力的生成模型,基于通用归一化流建模的集值潜表示。与之前的摊销方法类似,Laser-NV 从多个场景中学习结构,并能从很少的视图中快速、前馈推断。为了鼓励更高的渲染保真度和与观测视图的一致性,Laser-NV 进一步在观测视图上集成了几何感知的注意力机制。Laser-NV 进一步产生场景中被遮挡部分的多样化和可信的补全,同时与观察保持一致。在 ShapeNet 和新模拟城市数据集上进行评估时,Laser-NV 显示出最先进的新视图合成质量,该数据集在场景中未观察区域具有很高的不确定性。
GLIGEN: 开放世界 Grounded 文本到图像生成 GLIGEN: Open-Set Grounded Text-to-Image Generation
Y Li, H Liu, Q Wu, F Mu, J Yang, J Gao, C Li, Y J Lee
[University of Wisconsin-Madison & Columbia University & Microsoft]
https://arxiv.org/abs/2301.07093
要点:提出GLIGEN,一种新方法,基于并扩展了现有预训练文本到图像扩散模型,使其也以 grounding 输入为条件,以提高可控性;通过冻结预训练模型所有权重,并通过门控机制将 grounding 信息注入新的可训练层,来保存预训练模型的大量概念知识;实现了基于描述和边框条件输入的开放世界 grounded text2img 生成,grounding 能力很好地推广到新的空间配置和概念。
一句话总结:GLIGEN 是一种新方法,允许在边框等 grounding 输入上调节预训练文本到图像扩散模型,实现开放世界 grounded text2img 生成,可很好地推广到新的空间配置和概念,并在零样本任务中显著优于现有的有监督 layout-to-image 基线。
摘要:大规模文本到图像扩散模型取得了惊人的进步。然而,现状是仅使用文本输入,这可能会阻碍可控性。本文提出 GLIGEN,Grounded 语言到图像生成,一种基于并扩展现有预训练文本到图像扩散模型的新方法,使它们也以 grounding 的输入为条件。为了保留预训练模型的大量概念知识,冻结其所有权重,通过门控机制将 grounding 信息注入新的可训练层。所提出模型实现了基于描述和边框条件输入的开放世界 grounded text2img 生成,grounding 能力很好地推广到新的空间配置和概念。GLIGEN 在 COCO 和 LVIS 上的零样本性能大大优于现有的有监督 layout-to-image 基线。
基于检索增强知识的定制视觉模型学习 Learning Customized Visual Models with Retrieval-Augmented Knowledge
H Liu, K Son, J Yang, C Liu, J Gao, Y J Lee, C Li
[Microsoft & University of Wisconsin–Madison]
https://arxiv.org/abs/2301.07094
https://react-vl.github.io/
要点:提出一种新框架REACT(检索增强定制),用于用网络级图像文本数据为目标域构建定制视觉模型;对各种任务的广泛实验,包括在零样本和少样本的设置下进行分类、检索、检测和分割,展示了REACT的有效性;与当前最先进的模型 CLIP 相比,REACT 可以在 ImageNet 上实现高达 5.4% 的改进,在 ELEVATER 基准(20个数据集)上实现 3.7% 的零样本分类任务。
一句话总结:提出REACT,一个获取相关网络知识的框架,为目标域构建定制的视觉模型,与现有模型相比,在零样本分类任务方面实现了高达 5.4% 的改进。
摘要:CLIP等图像文本对比学习模型表现出很强的任务迁移能力。这些视觉模型的高度通用性和可用性是通过网络级的数据收集过程实现的,以确保广泛的概念覆盖,然后是昂贵的预训练,将所有知识注入模型权重。本文提出 REACT,检索增强定制,一种获取相关网络知识的框架,为目标域构建定制的视觉模型。作为外部知识,从网络级数据库中检索最相关的图像文本对(约占CLIP预训练数据的3%),提出仅通过训练新的修改块来自定义模型,同时冻结所有原始权重。REACT 的有效性通过对分类、检索、检测和分割任务(包括零样本、少样本和全样本设置)的广泛实验得到了证明。特别是,在零样本分类任务上,与CLIP相比,在ImageNet上实现了高达5.4%的改进,在ELEVATER基准(20个数据集)上实现了3.7%的改进。https://react-vl.github.io/
大型生成式AI模型前沿综述 ChatGPT is not all you need. A State of the Art Review of large Generative AI models
R Gozalo-Brizuela, E C. Garrido-Merchan
[Universidad Pontificia Comillas]
https://arxiv.org/abs/2301.04655
要点:ChatGPT 和 Stable Diffusion 等大型生成模型在数据集、计算、偏差和对伦理的理解以及必要约束方面存在局限性;局限性包括难以为某些任务找到数据,以及需要大型数据集和计算资源;提供了最近生成模型的分类,并总结了其能力和局限性。
一句话总结:ChatGPT 和 Stable Diffusion 等大型生成模型正在通过执行文本到图像和文本到音频等任务彻底改变几个行业,但它们在数据集、计算、偏差和对伦理的理解以及必要约束方面具有局限性。
机器学习损失函数综述 A survey and taxonomy of loss functions in machine learning
L Ciampiconi, A Elwood, M Leonardi, A Mohamed, A Rozza
[lastminute.com group]
https://arxiv.org/abs/2301.05579
要点:对各种机器学习应用的33种常用损失函数进行调研,包括分类、回归、排序、样本生成和基于能源建模;损失函数的直观分类,按任务、学习范式和基本策略来进行组织;为初学者和高级机器学习从业者在为他们的问题定义适当损失函数时提供使用参考。
一句话总结:对各种机器学习应用的33种常用损失函数进行调研,按易于理解的分类进行整理,作为从业者在为问题定义适当损失函数时提供参考。
摘要:大多数最先进的机器学习技术,都围绕着损失函数的优化。因此,定义适当的损失函数对于成功解决该领域的问题至关重要。本文对各种不同应用中最常用的损失函数进行了调研,分为分类、回归、排序、样本生成和基于能源建模。本文将33种不同的损失函数,组织成容易理解的分类。每种损失函数都有其理论支持,本文描述了其最适合使用的场景。本综述旨在为初学者和高级机器学习从业者提供最基本的损失函数参考。
面向Grounded生成的文本到图像扩散模型引导 Guiding Text-to-Image Diffusion Model Towards Grounded Generation
Z Li, Q Zhou, X Zhang, Y Zhang, Y Wang, W Xie
[Shanghai Jiao Tong University]
https://arxiv.org/abs/2301.05221
https://lipurple.github.io/Grounded_Diffusion/
要点:在现有的扩散模型中插入一个 grounding 模块,该模块可进行训练,使扩散模型的视觉和文本嵌入空间仅与少数目标类别对齐;提出一种由 {图像、分割掩码、文本提示} 三元组组成的数据集的自动化管线,以训练所提出的 grounding 模块;评估从文本到图像扩散模型生成的图像上的开放词汇 grounding 性能,该模块可以很好地分割训练时看到的类别的对象。
一句话总结:提出一种用 grounding 模块将开放词汇对象 grounding 加入文本到图像扩散模型的方法,以及相应的数据集构建管线,显示出分割未见过对象的良好性能,以及用于零样本语义分割的潜力。
摘要:本文的目标是增强预训练的文本到图像扩散模型,该模型具有开放世界目标 grounding 的能力,即同时为文本提示符中描述的相应视觉实体生成图像和分割掩码。本文贡献如下:(i) 在现有的扩散模型中插入一个 grounding 模块,该模块可进行训练,使扩散模型的视觉和文本嵌入空间仅与少数目标类别对齐;(ii) 提出一种由 {图像、分割掩码、文本提示} 三元组组成的数据集的自动化管线,以训练所提出的 grounding 模块;(iii) 评估从文本到图像扩散模型生成的图像上的开放词汇 grounding 性能,该模块可以很好地分割训练时看到的类别的对象;(iv) 用引导扩散模型构建合成语义分割数据集,在此类数据集上训练标准分割模型表明,在零样本分割(ZS3)基准上具有竞争力,为采用强大的扩散模型进行判别性任务提供了新的思路。
Box2Mask: 基于水平集演化的框监督实例分割 Box2Mask: Box-supervised Instance Segmentation via Level-set Evolution
W Li, W Liu, J Zhu, M Cui, R Yu, X Hua, L Zhang
[Zhejiang University & Alibaba Group & The Hong Kong Polytechnic University]
https://arxiv.org/abs/2212.01579
https://github.com/LiWentomng/boxlevelset
要点:提出一种新的单样本实例分割方法Box2Mask,使用边框标注而不是像素级掩码标记;Box2Mask 用水平集演化模型来实现准确的掩模预测,并将深度神经网络集成到学习水平集曲线中;用基于像素亲和力核的局部一致性模块来挖掘局部上下文和空间关系。
一句话总结:Box2Mask方法是一种新的单样本实例分割方法,使用边框标注并集成水平集演化和深度神经网络,实现了在各种数据集上准确的掩模预测,超越全掩码监督方法。
摘要:与使用像素掩码标记的全监督方法不同,框监督实例分割利用了简单的框标注,这种方法正引来越来越多的研究关注。本文提出一种新的单样本实例分割方法Box2Mask,将经典的水平集(Level-Set)演化模型集成到深度神经网络学习中,只需边框监督即可实现准确的掩码预测。输入图像及其深度特征都用于隐式地进化水平集曲线,用基于像素亲和力核的局部一致性模块来挖掘局部上下文和空间关系。提出了两种类型的单级框架,即基于CNN和基于 Transformer 的框架,以增强框监督实例分割的水平集进化,每个框架由三个基本组件组成:实例感知解码器、框级匹配分配和水平集进化。通过最小化水平集能量函数,可以在其边框标注中迭代优化每个实例的掩码映射。五个具有挑战性的测试平台的实验结果涵盖了一般场景、遥感、医疗和场景文本图像,展示了所提出的Box2Mask方法在框监督实例分割方面的出色表现。特别是,使用 Swin-Transformer 大规模主干,Box2Mask在COCO上获得了42.4%的掩码AP,与最近提出的全掩码监督方法相当。
SemPPL: 面向更好对比性表示的伪标签预测 SemPPL: Predicting pseudo-labels for better contrastive representations
M Bošnjak, P H. Richemond, N Tomasev, F Strub, J C. Walker, F Hill, L H Buesing, R Pascanu, C Blundell, J Mitrovic
[DeepMind]
https://arxiv.org/abs/2301.05158
要点:提出一种新的半监督学习方法,Semantic Positives via Pseudo-Labels (SemPPL),结合标记和无标记的数据来学习信息性表示;通过使用k近邻分类器来扩展自监督对比学习,以预测缺失标签(伪标签),用具有相同伪标签(语义正样本)的数据点丰富一组正样本;联合学习表示和预测 bootstrapped 伪标签,从而提高与竞争的半监督方法相比的性能。
一句话总结:提出一种新的半监督学习方法Semantic Positives via Pseudo-Labels (SemPPL),结合了标记和未标记数据,通过预测缺失标签来学习信息丰富的表示,在 ImageNet 数据集上取得了新的最佳性能。
摘要:从大量非监督数据和少量监督中学习,是计算机视觉中的一个重要开放问题。本文提出一种新的半监督学习方法,Semantic Positives via Pseudo-Labels (SemPPL)),结合了标记和无标记数据来学习信息性表示。该方法扩展了自监督对比学习——通过区分两个样本是否代表相同的底层基准(正性)来塑造表示——并采用一种选择正样本的新方法。为了丰富一组正样本,利用现有的少数真实标签,通过k近邻分类器,用标记数据的习得嵌入来预测缺失标签。用具有相同伪标签的数据点扩展正样本,叫做语义正样本。联合学习表征和预测 bootstrapped 伪标签。这创造了一个强化循环。强大的初始表示可以实现更好的伪标签预测,从而改善语义正样本的选择,并导致更好的表示。
视觉 Transformer 是优秀的掩码自标记器 Vision Transformers Are Good Mask Auto-Labelers
S Lan, X Yang, Z Yu, Z Wu, J M. Alvarez, A Anandkumar
[NVIDIA & Meta AI & Fudan University]
https://arxiv.org/abs/2301.03992
https://github.com/NVlabs/mask-auto-labeler
要点:提出一种新的基于框监督的实例分割两阶段框架——掩码自标记器(MAL),简单且与实例分割模块设计无关;用视觉Transformers(ViTs)作为图像编码器会产生较强的自动标记效果;MAL的特定设计元素——例如基于注意力的解码器,基于框扩展的多实例学习和类别无关训练——对自动标记性能有重要影响。
一句话总结:提出一种新的基于框监督的实例分割的两阶段框架MAL,利用视觉 Transformer 生成高质量的掩码伪标记,确定了增强MAL性能的关键设计元素,缩小了框监督和全监督方法之间的差距,可以达到几乎人类水平的表现,并能很好地泛化到未见过的新类别。
摘要:提出了一种基于Transformer的高质量掩码自标注框架掩码自标记器(MAL),只用框标注进行实例分割。MAL将框裁剪图像作为输入,并有条件地生成其掩码伪标签。视觉Transformer是优秀的掩码自标注器。所提出方法显著减少了自动标记与人工标记之间关于掩码质量的差距。用MAL生成的掩码训练的实例分割模型可以接近与其全监督对应模型的性能相匹配,保留了高达 97.4% 的全监督模型性能。最佳模型在COCO实例分割上(test-dev 2017)达到 44.1% mAP,显著优于最先进的框监督方法。定性结果表明,MAL生成的掩码在某些情况下甚至比人工标注更好。
训练轨迹、mini-batch损失和学习率的独特特性 Training trajectories, mini-batch losses and the curious role of the learning rate
M Sandler, A Zhmoginov, M Vladymyrov, N Miller
[Google Research]
https://arxiv.org/abs/2301.02312
要点:在用随机梯度下降训练深度学习网络时,mini-batch损失函数可以通过二次函数准确模拟;大的学习率可以在单次梯度下降步达到非常低的损失值;一个简单的模型和几何解释可以分析mini-batch梯度与全批量梯度之间的关系以及学习率如何影响这种关系;迭代平均和学习率规划之间的联系,可以在理论模型和大规模多数据集训练中同时观察到。
一句话总结:随机梯度下降学习率具有独特的特性,可以通过简单的模型和几何解释进行分析,并且与迭代平均的联系可以在理论模型和大规模多数据集训练中同时观察到。
摘要:随机梯度下降(SGD)在几乎所有深度学习应用中都起着基础性的作用。然而,它的效率以及收敛于全局最小值的显著能力依然很神秘。在大型网络上定义的损失函数在大量数据中已知是非凸的。然而,关于单个批次的损失函数的行为探讨相对较少。本文表明,对ResNet而言,任何固定的mini-batch在SGD轨迹旁测量时的损失似乎可以通过二次函数准确建模。特别地,在单步梯度下降中,可以通过足够大的学习率达到非常低的损失值。本文提出一个简单的模型和几何解释,可以分析随机mini-batch梯度与全批量梯度间的关系以及学习率如何影响这种关系。该分析使得能发现迭代聚合与特定学习率规划之间的等价性。特别地,对于指数移动平均(EMA)和随机权重平均,所提出的模型与ImageNet上观察到的训练轨迹相匹配。本文的理论模型预测,即使用更简单的平均技术,平均仅几步外的两个点,也相对于基线显著提高了精度。用ResNet架构在ImageNet和其他数据集上也验证了该发现。
面向视觉语言预训练的过滤、蒸馏和硬负样本 Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training
F Radenovic, A Dubey, A Kadian, T Mihaylov, S Vandenhende, Y Patel, Y Wen, V Ramanathan, D Mahajan
[Meta AI]
https://arxiv.org/abs/2301.02280
https://github.com/facebookresearch/diht
要点:提出复杂度、动作和文本定位(Complexity, Action, and Text-spotting - CAT)数据集过滤策略,可以减少数据集大小,并提高零样本视觉-语言任务上的性能;概念蒸馏是一种用强大的单模态表示进行对比训练的技术,不会增加训练复杂度;提出一种重要性采样方法,用于对硬负样本进行上采样,作为对传统对比对齐目标的修改;一种新的少样本线性探测方法弥合了零样本和少样本学习之间的差距。
一句话总结:通过精心的数据集过滤和简单的建模改进,可以通过大规模预训练在检索和分类任务中实现零样本性能的显著提高。CAT 过滤可以应用于任意大规模数据集,概念蒸馏是利用大容量预训练图像模型进行多模态训练的计算和存储高效的方法,提出少样本线性探测方法比之前的工作有所改进。
摘要:用大规模含噪数据对比学习训练的视觉-语言模型越来越受欢迎,用于零样本识别问题。本文改进了对比预训练流水线的以下三方面:数据集噪声、模型初始化和训练目标。本文提出一种简单的过滤策略,名为复杂度,动作和文本定位(CAT),它显著减少了数据集大小,同时在零样本视觉-语言任务中实现了性能改进。本文提出一种名为概念蒸馏的方法,利用强大的单模态表示进行对比训练,在性能优于之前工作的同时不会增加训练复杂度。本文修改了传统的对比对齐目标,并提出一种重要性采样方法,用于对硬负样本进行上采样,而不会增加额外的复杂度。在29项任务的广泛零样本基准测试中,所提出的蒸馏和硬负训练(DiHT)方法相比基线在20项任务中取得了改进。此外,对于少样本线性探测,本文提出一种新的方法,该方法弥合了零样本和少样本性能之间的差距,大大改善了之前的工作。
高性能计算的迷思和传说 Myths and Legends in High-Performance Computing
S Matsuoka, J Domke, M Wahib, A Drozd, T Hoefler
[RIKEN Center for Computational Science & ETH Zurich]
https://arxiv.org/abs/2301.02432
要点:讨论高性能计算社区内外流传的迷思和传言。这些迷思代表了该领域当前经历巨大变化的时代,可以作为未来研究和投资的潜在新方向。
一句话总结:本文提出了高性能计算社区内外的一系列迷思和传言,并鼓励就这些迷思进行讨论和争论,作为未来研究和投资的潜在新方向。
摘要:这篇幽默而发人深省的文章,讨论了高性能计算社区中流传的某些迷思和传言。本文从会议和活动的对话、产品广告、论文以及其他媒介(如推文、博客和新闻文章)中收集了这些迷思。相信它们代表了由 Dennard 扩展和摩尔定律等许多扩展律终结引发的当前大变革的时代精神。虽然一些定律终结,但也打开了新的方向,如算法扩展或新的体系结构研究。但是,这些迷思很少基于科学事实,而往往基于某些证据或论证。本文认为这就是许多迷思存在的原因,也是它们无法明确回答的原因。虽然感觉上应该为每个迷思都有明确的答案,但有些可能会成为无休止的哲学辩论,比如贝多芬是否比莫扎特更优秀的问题。希望将这些迷思作为可能的新研究方向和产业投资的讨论。
StitchNet: 用预训练片段创建高性能神经网络 StitchNet: Composing Neural Networks from Pre-Trained Fragments
S Teerapittayanon, M Comiter, B McDanel, H.T. Kung (2023)
https://arxiv.org/abs/2301.01947
要点:StitchNet 范式:一种通过组合多个预训练网络的片段来创建高性能神经网络的方法;在评估片段的可组合性时,采用居中内核对齐(CKA)的新方法;提出用于线性层和卷积层的可组合片段的组合技术。
一句话总结:StitchNet 是通过结合多个预训练网络的片段来创建高性能神经网络的方法,用居中内核对齐(CKA)来评估兼容性并指导选择。StitchNets 可以在较少的计算和数据资源的情况下实现与传统训练网络相当的精度,并可用于即时个性化模型创建和推理效率的提升。
摘要:提出了 StitchNet,一种新的神经网络创建范式,将来自多个预训练神经网络的片段(一个或多个连续网络层)拼接在一起。StitchNet 可以不需要传统模型创建过程中反向传播所需大量计算和数据要求而创建高性能神经网络。利用居中内核对齐(CKA)作为兼容性度量,有效地指导这些片段在组成针对特定精度需求和计算资源约束的给定任务的网络的选择。本文展示了这些片段可以被拼接在一起,以创建与传统训练网络相当精度的神经网络,而计算资源和数据要求的比例小得多。本文还探索了这种新范式激活的新型即时个性化模型创建和推理应用。
重新思考高效神经模型的移动端块 Rethinking Mobile Block for Efficient Neural Models
J Zhang, X Li, J Li, L Liu, Z Xue, B Zhang, Z Jiang, T Huang, Y Wang, C Wang
[Tencent & Peking University & Wuhan University]
https://arxiv.org/abs/2301.01146
要点:本文专注于设计具有低参数低 FLOPs 的高效模型,用于稠密预测;提出Meta-Mobile Block,一种统一 MobileNetv2 中高效逆残差块和 ViT 中有效Transformer的通用概念;提出了用于移动和稠密应用的逆残差移动块(iRMB)和高效模块(EMO),基于Meta-Mobile Block概念,并在多个基准测试上实现了强大的性能。
一句话总结:本文提出 Meta-Mobile Block 概念和 iRMB 和 EMO 模型,用于高效稠密预测,在多个基准测试中证明了其优于最先进的方法。
摘要:本文致力于设计低参数低 FLOPs 的高效模型,用于稠密预测。尽管基于 CNN 的轻量方法在多年的研究后取得了令人瞩目的成果,但在准确性和受限资源之间权衡的模型仍需进一步改进。本研究重新思考了 MobileNetv2 中高效逆残差块和 ViT 中有效 Transformer 的基本统一性,通过归纳抽象出 Meta-Mobile Block 的一般概念,即使共享相同的框架,具体实例化也对模型性能非常重要。受这一现象的启发,本文推导出了一种简单而高效的现代逆残差移动块(iRMB),用于移动应用,其吸收了 CNN 的效率,用于模拟短程依赖关系,并具有 Transformer 类似的动态建模能力,用于学习长程交互。本文还设计了一种仅基于一系列 iRMB 的 ResNet 类 4 阶段高效模块(EMO),用于稠密应用。在 ImageNet-1K、COCO2017 和 ADE20K 基准测试中进行的大量实验证明了 EMO 优于最先进的方法,同时很好地平衡了模型准确性和效率。
鲁棒动态辐射场 Robust Dynamic Radiance Fields
Y Liu, C Gao, A Meuleman, H Tseng, A Saraf, C Kim, Y Chuang, J Kopf, J Huang
[Meta & National Taiwan University & KAIST]
https://arxiv.org/abs/2301.02239
https://robust-dynrf.github.io/
要点:提出一种不需要已知相机姿态作为输入的动态单目视频时空合成算法;经过精心设计的架构和辅助损失,提高了相机姿态估计和动态辐射场重建的鲁棒性;在典型的 SfM 系统无法估计相机姿态的挑战性数据集上表现出良好的鲁棒性。
一句话总结:提出了一种在不需要已知相机姿态的情况下鲁棒重建动态辐射场的方法,通过精心设计的模型和辅助损失有效提升了鲁棒性。
摘要:动态辐射场重建方法旨在对动态场景的时变结构和外观进行建模。然而,现有方法假设通过运动结构(SfM)算法可以可靠地估计准确的相机姿态。因此,这些方法不可靠,因为 SfM 算法常常在具有高动态对象、纹理质量差的表面和旋转相机运动的挑战性视频中失败或产生错误的姿态。本文通过联合估计静态和动态辐射场以及相机参数(姿态和焦距)来解决该鲁棒性问题。本文通过大量的定量和定性实验来展示该方法的鲁棒性。实验结果显示,与最先进的动态视图合成方法相比具有良好的性能。
All in Tokens: 通过软Token统一视觉任务输出空间 All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
J Ning, C Li, Z Zhang, Z Geng, Q Dai, K He, H Hu
[Microsoft Research Asia & Huazhong University of Science and Technology & ...]
https://arxiv.org/abs/2301.02229
https://github.com/SwinTransformer/AiT
要点:引入软Token来表示视觉任务的输出;用掩码增强来提高存在标签标记值损坏或未定义的任务的性能;提出一个统一的自回归编-解码器模型,可同时处理多个视觉任务。
一句话总结:提出用软Token表示视觉任务输出的新方法,以及多视觉任务的统一模型,在深度估计数据集上实现了最先进的性能,并在目标检测和实例分割方面实现了有竞争力的结果。
BiMLP: 视觉多层感知器紧凑二值架构 BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons
Y Xu, X Chen, Y Wang
[Huawei Noah’s Ark Lab]
https://arxiv.org/abs/2212.14158
https://gitee.com/mindspore/models/tree/master/research/cv/BiMLP
要点:二值化多层感知器(MLP)模型的主要困难,在于FC层的表示能力比卷积网络模型中具有更大核尺寸的卷积操作要差;引入一种多分支二值MLP块(MBB块)和Uni-shortcut操作来提高二值MLP模型的表示能力;修改下采样层架构以降低计算复杂度;在ImageNet-1K数据集上的实验结果表明,所提出的BiMLP模型比最先进的ReActNet模型在top-1精度上有1.3%的提高,操作次数减少了12.1%。
SinDDM: 单图像去噪扩散模型 SinDDM: A Single Image Denoising Diffusion Model
V Kulikov, S Yadin, M Kleiner, T Michaeli
[Technion – Israel Institute of Technology]
https://arxiv.org/abs/2211.16582
https://matankleiner.github.io/sinddm/
要点:去噪扩散模型(DDM)为图像生成、编辑和恢复带来了显著的性能提升;提出一种在单幅图像上训练DDM的框架SinDDM,用多尺度扩散过程和轻量去噪器来驱动反向扩散过程;SinDDM适用于各种任务,如风格迁移和用单幅图像引导生成,并且能生成任意维的多样高质量样本。
摘要:去噪扩散模型(DDM)带来了图像生成、编辑和恢复方面的惊人性能飞跃。然而,现有的DDM用非常大的数据集进行训练。本文提出一种在单幅图像上训练DDM的框架。创建SinDDM的方法通过用多尺度扩散过程学习训练图像的内部统计信息。为了推动反向扩散过程,用全卷积轻量去噪器,该去噪器取决于噪音水平和规模。该架构允许以从粗到细的方式生成任意维的样本。SinDDM可生成各种高质量样本,并适用于各种任务,包括样式迁移和协调。此外,它很容易受到外部监督的指导。特别是,用预训练的CLIP模型演示了从单幅图像进行文本引导生成。
Imagen编辑器和EditBench:文本引导图像补齐的推进与评估 Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting
S Wang, C Saharia, C Montgomery, J Pont-Tuset, S Noy, S Pellegrini, Y Onoe, S Laszlo, D J. Fleet, R Soricut...
[Google Research]
https://arxiv.org/abs/2212.06909
要点:Imagen Editor是一种级联扩散模型,可在文本引导图像补全上微调,用目标检测器在训练期间提出补全掩码;EditBench是一种系统的文本引导图像补全基准,可对自然图像和生成图像的补全编辑进行细粒度评估,探索对象、属性和场景;EditBench上的人工评估表明,训练期间的目标掩码可以改善文本图像对齐,当前模型比文本渲染更擅长对象渲染。
摘要:文本引导图像编辑可在支持创意应用方面产生变革性影响。一个关键的挑战是生成忠实于输入文本提示的编辑,同时与输入图像保持一致。本文提出Imagen编辑器,一种通过在文本引导图像补全上微调Imagen构建的级联扩散模型。Imagen编辑器的编辑忠实于文本提示,这是通过在训练期间使用目标检测器提出补全掩码来完成的。此外,图像编辑器通过调节原始高分辨率图像上的级联管道来捕获输入图像中的精细细节。为了改进定性和定量评估,引入了EditBench,文本引导图像补全的系统基准。EditBench评估自然和生成图像的补全编辑,探索对象、属性和场景。通过对EditBench的广泛人工评估,发现训练期间的目标掩码导致文本图像对齐的全面改进——例如,图像编辑器优于DALL-E 2和Stable Diffusion——作为一个队列,这些模型更擅长目标渲染而不是文本渲染,并且比计数/形状属性更好地处理材料/颜色/大小属性。