一些分割与深度估计的多任务学习论文

Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation

https://arxiv.org/abs/2105.07830

https://github.com/susaha/ctrl-uda

我们提出了一种在无监督域自适应(UDA)设置中编码视觉任务关系以提高模型性能的方法。语义分割和单目深度估计被证明是互补的任务;在多任务学习环境中,对它们之间的关系进行适当编码可以进一步提高两项任务的性能。基于这一观察,我们提出了一种新的跨任务关系层(CTRL),它编码语义和深度预测之间的任务依赖关系。为了捕捉跨任务关系,我们提出了一种包含任务特定和跨任务细化头部的神经网络架构。此外,我们提出了一种迭代自学习(ISL)训练方案,该方案利用语义伪标签来提供对目标域的额外监督。我们通过实验观察到两项任务的性能都有所改善,因为这些任务中存在的补充信息被更好地捕获。具体而言,我们表明:(1)当所有任务互补且相互依赖时,我们的方法提高了所有任务的性能;(2) CTRL有助于在具有挑战性的UDA设置中提高语义分割和深度估计任务的性能;(3) 所提出的ISL训练方案进一步提高了语义分割性能。此https URL提供了实现。



MultiMAE: Multi-modal Multi-task Masked

https://multimae.epfl.ch/

https://arxiv.org/abs/2204.01678

我们提出了一种称为多模态多任务掩码自动编码器(MultiMAE)的预训练策略。它与标准掩码自动编码在两个关键方面有所不同:I)它可以选择性地接受输入中除了RGB图像之外的其他形式的信息(因此是“多模式”),以及II)其训练目标相应地包括预测RGB图像以外的多个输出(因此是多任务”)。

我们利用掩蔽(跨图像块和输入模态)使训练MultiMAE易于处理,并确保跨模态预测编码确实由网络学习。我们表明,这种预训练策略导致了一个灵活、简单和高效的框架,并改善了向下游任务的转移结果。特别是,当除了RGB图像之外的附加信息可用时,或者当除了RGB之外的信息不可用时,可以灵活地使用相同的精确预训练网络-在所有配置中,都会产生与基线相比具有竞争力或明显更好的结果。为了避免需要具有多个模态和任务的训练数据集,我们完全使用伪标记来训练MultiMAE,这使得该框架广泛适用于任何RGB数据集。

实验在多个转移任务(图像分类、语义分割、深度估计)和数据集(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)上进行。结果表明,该模型在跨模式/任务预测编码和传输中具有令人印象深刻的能力。



Semi-supervised Multi-task Learning for Semantics and Depth

https://arxiv.org/pdf/2110.07197.pdf

多任务学习(MTL)旨在通过在相关任务之间共享表示来增强模型泛化,以获得更好的性能。典型的MTL方法与所有任务的大量地面真相同时进行联合训练。然而,一个数据集可能不包含每个感兴趣任务的注释。为了解决这个问题,我们提出了半监督多任务学习(SemiMTL)方法,以利用来自不同数据集的可用监督信号,特别是用于语义分割和深度估计任务。为此,我们在半监督训练中设计了一种对抗性学习方案,通过利用未标记的数据同时优化所有任务分支,并使用部分注释完成跨数据集的所有任务。我们进一步提出了一种具有不同对齐公式的域感知鉴别器结构,以缓解数据集之间的域差异问题。最后,我们证明了所提出的方法在具有挑战性的街景和遥感基准上跨不同数据集学习的有效性。



PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation (CVPR2022)

https://arxiv.org/abs/2206.00468

https://github.com/NaiyuGao/PanopticDepth

本文提出了一种统一的深度感知全景分割(DPS)框架,该框架旨在从单个图像中重建具有实例级语义的三维场景。先前的工作通过简单地将密集深度回归头添加到全景分割(PS)网络来解决这个问题,从而产生两个独立的任务分支。这忽略了这两个任务之间的互惠关系,因此无法利用方便的实例级语义线索来提高深度准确性,同时也无法生成次优深度图。为了克服这些限制,我们通过将动态卷积技术应用于PS和深度预测任务,提出了DPS任务的统一框架。具体来说,我们不是一次预测所有像素的深度,而是生成特定于实例的内核来预测每个实例的深度和分割掩码。此外,利用实例级深度估计方案,我们添加了额外的实例级深度线索,以帮助通过新的深度损失来监督深度学习。在Cityscapes DPS和SemKITTI DPS上的大量实验表明了我们方法的有效性和前景。我们希望我们的DPS统一解决方案能够引领这一领域的新范式。此https URL提供代码。



MulT: An End-to-End Multitask Learning Transformer

https://arxiv.org/abs/2205.08303

https://ivrl.github.io/MulT/

https://github.com/IVRL/MulT

我们提出了一个名为MulT的端到端多任务学习转换器框架,以同时学习多个高级视觉任务,包括深度估计、语义分割、重新加载、表面法线估计、2D关键点检测和边缘检测。基于Swin变换器模型,我们的框架将输入图像编码为共享表示,并使用基于任务特定变换器的解码器头对每个视觉任务进行预测。我们方法的核心是一个共享注意力机制,它对任务之间的依赖关系进行建模。我们在几个多任务基准上评估了我们的模型,表明我们的MulT框架优于最先进的多任务卷积神经网络模型和所有相应的单任务变换器模型。我们的实验进一步强调了在所有任务中共享注意力的好处,并证明了我们的MulT模型是鲁棒的,并且可以很好地推广到新的领域。我们的项目网站位于https URL。



Composite Learning for Robust and Effective Dense Predictions

https://arxiv.org/abs/2210.07239

多任务学习通过与辅助任务联合优化目标任务,可以更好地对目标任务进行模型泛化。然而,当前的实践需要对辅助任务进行额外的标记工作,同时不能保证更好的模型性能。在本文中,我们发现,联合训练密集预测(目标)任务和自监督(辅助)任务可以一致地提高目标任务的性能,同时消除对辅助任务的标记需求。我们将这种联合培训称为复合学习(CompL)。CompL在单目深度估计、语义分割和边界检测上的实验表明,在完全和部分标记的数据集中,性能得到了一致的改善。对深度估计的进一步分析表明,具有自我监督的联合训练优于大多数标记的辅助任务。我们还发现,当在新的领域中评估模型时,CompL可以提高模型的鲁棒性。这些结果证明了自我监督作为辅助任务的好处,并为未来的多任务学习研究建立了一个新的调查轴,即设计新的任务特定的自我监督方法。



Multi-Task Meta Learning: learn how to adapt to unseen tasks

https://arxiv.org/abs/2210.06989

这项工作提出了多任务元学习(MTML),将多任务学习(MTL)和元学习两种学习范式结合起来,以将两个世界中的最好的结合在一起。特别是,它专注于多个任务的同时学习,这是MTL的一个要素,并以较少的数据迅速适应新任务,这是元学习的质量。需要强调的是,我们关注的是不同类型的异构任务,而不是通常认为的同质任务(例如,如果所有任务都是分类任务或如果所有任务是回归任务)。基本思想是训练一个多任务模型,这样当引入一个不可见的任务时,它可以以更少的步骤进行学习,同时在新任务或MTL中提供至少与传统的单任务学习一样好的性能。通过进行各种实验,我们在两个数据集和四个任务上演示了这种范式:NYU-v2和任务组数据集,我们对其执行语义分割、深度估计、表面法线估计和边缘检测。MTML在大多数任务中都取得了最先进的结果。尽管语义分割在数量上受到影响,但我们的MTML方法学习识别任务组数据集的伪标记基本事实中缺少的分割类。



Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with Self-Supervised Depth Estimation

https://arxiv.org/abs/2108.12545

https://github.com/lhoyer/improving_segmentation_with_selfsupervised_depth (216 Stars)

CVPR21

为语义分割训练深度网络需要大量标记的训练数据,这在实践中是一个主要挑战,因为标记分割掩码是一个高度劳动密集的过程。为了解决这个问题,我们提出了一种半监督和域自适应语义分割框架,该框架通过仅在未标记图像序列上训练的自监督单目深度估计(SDE)来增强。

特别是,我们在整个学习框架中全面利用SDE作为辅助任务:首先,我们基于SDE和语义分割之间的样本多样性和难度的相关性,自动选择要注释的最有用的样本用于语义分割。其次,我们通过使用场景的几何结构混合图像和标签来实现强大的数据增强。第三,我们通过转移和多任务学习,将SDE过程中学习到的特征中的知识转移到语义分割。第四,我们利用交叉域深度混合和匹配几何采样的附加标记合成数据来对齐合成数据和真实数据。

我们在Cityscapes数据集上验证了所提出的模型,其中所有四个贡献都显示了显著的性能提高,并在半监督语义分割和半监督域自适应方面获得了最先进的结果。特别是,只有1/30的Cityscapes标签,我们的方法实现了92%的完全监督基线性能,甚至在利用GTA的额外数据时达到了97%。源代码位于此https URL。



Instance-Level Task Parameters: A Robust Multi-task Weighting Framework

https://arxiv.org/pdf/2106.06129.pdf

最近的研究表明,深度神经网络通过学习多个相关任务的共享表示而受益于多任务学习。然而,这种系统的性能取决于训练期间所涉及的各种损失之间的相对权重。先前关于损失加权方案的工作假设,对于所有任务来说,实例都同样容易或困难。为了打破这一假设,我们让训练过程为数据集中的每个实例指定任务的最佳权重。更具体地说,我们为数据集中的每个实例配备了一组可学习的参数(实例级任务参数),其中基数等于模型学习的任务数。这些参数为实例的每个任务的权重建模。它们通过梯度下降进行更新,不需要手工制定规则。我们在SURREAL和CityScapes数据集上进行了广泛的实验,用于人体形状和姿势估计、深度估计和语义分割任务。在这些任务中,我们的方法优于最近的动态损失加权方法,例如在SURREAL上减少8.97%的表面估计误差。当应用于一个或多个任务可能具有噪声注释的数据集时,所提出的方法学习对给定任务的干净标签的学习进行优先级排序,例如将表面估计误差减少高达60%。我们还表明,我们可以可靠地检测给定任务的损坏标签,作为学习到的实例级任务参数的副产品。



Cross-task Attention Mechanism for Dense Multi-task Learning

https://arxiv.org/abs/2206.08927

https://github.com/astra-vision/DenseMTL

多任务学习最近已成为全面理解复杂场景的一个有前途的解决方案。具有适当设计的多任务模型不仅具有记忆效率,而且有利于在任务之间交换互补信号。在这项工作中,我们共同解决了二维语义分割和两个与几何相关的任务,即密集深度、表面法线估计以及边缘估计,它们在室内和室外数据集上显示了它们的优势。我们提出了一种新的多任务学习架构,该架构通过相关性引导的注意力和自我注意力来利用成对的跨任务交换,以增强所有任务的平均表示学习。我们在考虑三种多任务设置的情况下进行了广泛的实验,显示了我们的建议与综合基准和实际基准中的竞争基准相比的优势。我们还将我们的方法扩展到新的多任务无监督域自适应设置。我们的代码可从https URL获取。



Which Tasks Should Be Learned Together in Multi-task Learning?

ICML 2020

在MulT中是baseline

https://arxiv.org/abs/1905.07553

http://taskgrouping.stanford.edu/

许多计算机视觉应用需要实时解决多个任务。可以训练神经网络以使用多任务学习同时解决多个任务。这可以节省推理时间的计算,因为只需要评估单个网络。不幸的是,这通常会导致整体表现不佳,因为任务目标可能会相互竞争,这就提出了一个问题:当采用多任务学习时,哪些任务应该和不应该在一个网络中一起学习?我们研究了几种不同学习环境下的任务协作和竞争,并提出了一种将任务分配给少数神经网络的框架,使得协作任务由同一神经网络计算,而竞争任务由不同网络计算。我们的框架提供了时间精度权衡,并且可以使用更少的推理时间来产生更好的精度,这不仅比单个大型多任务神经网络,而且比许多单个任务网络都要少。



Robust Learning Through Cross-Task Consistency

https://arxiv.org/abs/2006.04096

CVPR 2020 (Oral).

https://consistency.epfl.ch/

https://zhuanlan.zhihu.com/p/520157127

视觉感知需要解决一系列广泛的任务,例如物体检测、深度估计等。对同一图像中的多个任务所做的预测不是独立的,因此,预期是一致的。我们提出了一种广泛适用且完全计算的方法,用于增强跨任务一致性学习。所提出的公式基于任意任务图上的推理路径不变性。我们观察到,具有跨任务一致性的学习会导致更准确的预测和对分布外输入的更好概括。该框架还基于测量系统的内在一致性得出了一个信息量,称为一致性能量。一致性能量与监督误差相关良好(r=0.67),因此它可以用作无监督置信度度量以及检测分布外输入(ROC-AUC=0.95)。评估在多个数据集上进行,包括Taskonomy、Replica、CocoDoom和ApolloScape,他们将跨任务一致性与各种基线进行比较,包括传统的多任务学习、周期一致性和分析一致性。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容