search "graph cvpr2021"in arxiv
CVPR2021Oral
Unsupervised Multi-Source Domain Adaptation for Person Re-Identification(CVPR 2021 Oral)
无监督域自适应(UDA)人员再识别(re-ID)方法旨在将re-ID知识从标记源数据转移到未标记目标数据。虽然取得了巨大的成功,但大多数模型只使用来自单一源域的有限数据进行模型预训练,使得丰富的标记数据得不到充分的利用。为了充分利用这些有价值的标记数据,我们将多源概念引入到UDA-person-re-ID域中,在训练过程中使用多源数据集。然而,由于领域的差异,简单地组合不同的数据集只能带来有限的改进。在本文中,我们试图从两个角度来解决这个问题,即领域特定视图和领域融合视图。提出了两个结构模块,它们相互兼容。首先,探索了一种校正领域特定批量规范化(RDSBN)模块,以同时减少领域特定特征和增加人物特征的显著性。其次,提出了一种基于图卷积网络(GCN)的多域信息融合(MDIF)模块,该模块通过融合不同域的特征来最小化域距离。该方法在很大程度上优于现有的UDA-person-re-ID方法,甚至可以在没有任何后处理技术的情况下达到与有监督方法相当的性能。
Fusing the Old with the New: Learning Relative Camera Pose with Geometry-Guided Uncertainty(CVPR 2021 Oral)
相对相机姿态估计的学习方法在很大程度上脱离了经典的几何方法。如何将深度神经网络(DNNs)的预测与几何解算器(如5点算法)的解相结合的问题,至今仍处于探索阶段。在本文中,我们提出了一个新的框架,涉及到概率融合的两个家庭之间的预测网络训练,以期利用他们的互补优势,在一个可学习的方式。融合是通过在几何不确定性的明确指导下学习DNN不确定性来实现的,从而学习考虑与DNN预测相关的几何解。我们的网络具有一个自注意图神经网络,它通过强制不同对应之间的强交互和潜在的建模点之间的复杂关系来驱动学习。我们提出了适合学习的运动参数化方法,并在具有挑战性的DeMoN和ScanNet数据集上证明了我们的方法达到了最先进的性能。当我们关注相对姿态时,我们设想我们的管道广泛适用于融合经典几何和深度学习。
Fully Convolutional Scene Graph Generation(CVPR 2021 Oral)
提出了一种同时检测对象和关系的全卷积场景图生成(FCSGG)模型。大多数场景图生成框架都使用预先训练好的两级对象检测器,比如更快的R-CNN,并使用边界盒特征构建场景图。这类流水线通常参数多,推理速度慢。与这些方法不同,FCSGG是一种概念上优雅且高效的自底向上方法,它将对象编码为边界框中心点,将关系编码为二维向量场,称为关系亲和场(raf)。RAFs编码了语义和空间特征,并通过一个子区域上的积分来表示一对对象之间的关系。FCSGG只利用视觉特征,仍然生成强大的场景图生成结果。在可视化基因组数据集上的综合实验证明了该方法的有效性、高效性和通用性。FCSGG在召回和零镜头召回方面取得了很好的竞争性结果,并且显著缩短了推理时间。
Bi-GCN: Binary Graph Convolutional Network(CVPR 2021 Oral)
图神经网络(GNNs)在图表示学习方面取得了巨大的成功。不幸的是,当前的GNNs通常依赖于将整个属性图加载到网络中进行处理。这种隐式假设在有限的内存资源下可能无法满足,特别是当属性图很大时。本文首先提出了一种二值图卷积网络(bigcn),它将网络参数和输入节点特征二值化。此外,对原矩阵乘法进行了修正,使之成为加速的二进制运算。理论分析表明,在引文网络上,我们的bigcn可以使网络参数和输入数据的平均内存消耗减少约30倍,推理速度平均提高约47倍。同时,我们还设计了一种新的基于梯度近似的反向传播方法来训练我们的双GCN。大量实验表明,我们的Bi-GCN可以提供与全精度基线相当的性能。此外,我们的二值化方法可以很容易地应用到其他GNNs中,这一点在实验中得到了验证。
A Hyperbolic-to-Hyperbolic Graph Convolutional Network
双曲图卷积网络(GCNs)对具有层次结构的图具有很强的表示能力。现有的双曲gcn借助于切线空间来实现双曲流形上的图卷积,但由于切线空间只是流形的局部逼近,因此其性能较差。本文提出了一种直接作用于双曲流形上的双曲到双曲图卷积网络(H2H-GCN)。具体地说,我们开发了一个保流形图卷积,它由双曲特征变换和双曲邻域聚合组成。双曲特征变换是双曲流形上的线性变换。通过对变换子矩阵施加正交约束,保证变换后的节点表示仍然位于双曲流形上。双曲线邻域聚合通过爱因斯坦中点更新每个节点表示。H2H-GCN避免了切线空间近似引起的失真,保持了全局双曲结构。大量的实验表明,H2H-GCN在链路预测、节点分类和图分类任务上都有很大的改进。
FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism
本文主要研究基于单目RGB-D图像的类别级6D姿态和尺寸估计。以往的方法在类别级位姿特征提取效率不高,导致精度和推理速度较低。为了解决这一问题,我们提出了一种基于形状的快速网络(FS-Net),该网络具有有效的类别级特征提取,用于6D姿态估计。首先,我们设计了一个方向感知的三维图形卷积自动编码器,用于潜在特征提取。由于三维图形卷积的平移和尺度不变性,所学习的潜在特征对点位移和目标尺寸不敏感。然后,为了有效地从潜在特征中解码类别级的旋转信息,我们提出了一种新的解耦旋转机制,该机制使用两个解码器互补地访问旋转信息。同时,我们用两个残差来估计平移量和尺寸,分别是目标点平均值和地面真值平移量的差值,以及类别平均尺寸和地面真值尺寸的差值。最后,为了提高FS网络的泛化能力,我们提出了一种基于在线盒形笼的三维变形机制来扩充训练数据。在两个基准数据集上的大量实验表明,该方法在类别级和实例级的6D目标姿态估计中都取得了很好的效果。特别是在类别级姿态估计中,在不需要额外的合成数据的情况下,该方法在NOCS-REAL数据集上的性能比现有方法提高了6.3%。
Self-Point-Flow: Self-Supervised Scene Flow Estimation from Point Clouds with Optimal Transport and Random Walk
由于注释场景流数据的匮乏,点云中的自监控场景流学习越来越受到人们的关注。在自监督的方式下,建立两点云间的对应关系,以近似场景流是一种有效的方法。以往的方法往往是通过采用点匹配,只考虑到三维点坐标上的距离,从而获得对应关系,引入两个关键问题:(1)忽略了颜色和表面法线等其他判别方法,往往为精确匹配带来丰富的线索;(2)它通常产生子par性能,因为匹配在无约束的情况下运行,在这种情况下,多个点可以以相同的对应点结束。为了解决这些问题,我们将匹配任务定义为一个最优的传输问题。输出最优分配矩阵可用于指导伪地面真值的生成。在这种最优运输中,我们通过考虑多个描述符来设计运输成本,并鼓励采用质量相等约束的一对一匹配。同时,在点上构造图,引入随机游走模块,以鼓励伪标签的局部一致性。通过对flyingthingshing3d和KITTI的综合实验,证明了该方法在自主学习方法中达到了最先进的性能。我们的自我监督方法甚至可以与一些有监督的学习方法相媲美,尽管我们不需要任何地面真实的训练流程。
CVPR2021Poster
Learning a Proposal Classifier for Multiple Object Tracking(CVPR 2021 Poster)
多目标跟踪(MOT)的最新趋势是利用深度学习来提高跟踪性能。然而,以端到端的方式解决数据关联问题并非易事。在本文中,我们提出了一个新的基于提议的可学习框架,该框架将MOT建模为一个在亲和图上的提议生成、提议评分和轨迹推理范式。该框架类似于两级目标检测器快速RCNN,能够以数据驱动的方式解决MOT问题。对于方案生成,我们提出了一种迭代图聚类方法,在保证生成方案质量的同时,降低了计算量。对于提案评分,我们使用可训练图卷积网络(GCN)来学习所产生提案的结构模式,并根据估计的质量分数对其进行排序。对于轨迹推断,采用一种简单的去重叠策略,在满足多条轨迹不能检测的约束条件下,产生跟踪输出。实验结果表明,该方法在MOTA和IDF1上都取得了明显的性能改进。
CVPR2021
To the Point: Efficient 3D Object Detection in the Range Image with Graph Convolution Kernels(CVPR 2021)
三维目标检测对于机器人的应用至关重要。对于存在二维透视范围图像的任务,我们建议直接从该范围图像视图学习三维表示。为此,我们设计了一个二维卷积网络体系结构,在整个网络中承载每个像素的三维球坐标。它的层可以使用任意卷积内核来代替默认的内积内核,并利用每个像素周围的底层局部几何结构。我们概述了四个这样的内核:根据单词包范式的密集内核,以及受最近图形神经网络进展启发的三个图形内核:转换器、点网和边卷积。我们还探讨了跨模态融合与相机图像,方便操作的透视范围图像视图。我们的方法在Waymo开放数据集上具有竞争力,将最先进的行人检测AP从69.7%提高到75.5%。我们的最小模型在质量上仍然优于流行的PointPillars,它的效率也很高,它需要的触发器和模型参数少了180倍
Exploring and Distilling Posterior and Prior Knowledge for Radiology Report Generation(CVPR 2021)
自动生成放射学报告可以改善目前临床实践中的诊断放射学。一方面,它可以减轻放射科医生写报告的沉重负担;另一方面可以提醒放射科医师注意异常,避免误诊漏诊。然而,对于数据驱动的神经网络来说,这项任务仍然是一项具有挑战性的工作,因为存在严重的视觉和文本数据偏差。为此,我们提出了一种后验和先验知识探索与提取方法(PPKED)来模拟放射科医生的工作模式,由放射科医生首先检查异常区域,并将疾病主题标签分配给异常区域,然后依靠多年的既往医学知识和既往工作经验积累撰写报告。因此,pped包括三个模块:后验知识管理器(PoKE)、先验知识管理器(PrKE)和多领域知识提取器(MKD)。具体而言,PoKE探索了后验知识,它提供了显式的异常视觉区域,以减轻视觉数据偏差;PrKE从先前的医学知识图(医学知识)和先前的放射学报告(工作经验)中探索先前的知识,以减轻文本数据偏差。MKD提炼出所探索的知识,生成最终报告。通过对MIMIC-CXR和IU-Xray数据集的评估,我们的方法能够在这两个数据集上优于以前最先进的模型。
DyGLIP: A Dynamic Graph Model with Link Prediction for Accurate Multi-Camera Multiple Object Tracking(CVPR 2021)
多摄像机多目标跟踪(MC-MOT)是一个重要的计算机视觉问题。尽管已有大量的工作,解决MC-MOT管道中的数据关联问题仍然是最具挑战性的任务之一。然而,由于许多实际问题,例如不一致的光照条件,不同的物体运动模式,或者物体在摄像机之间的轨迹遮挡,开发一个健壮的MC-MOT系统仍然具有很大的挑战性。为了解决这些问题,本文提出了一种新的动态图模型和链路预测(DyGLIP)方法来解决数据关联问题。与现有的方法相比,我们的新模型提供了一些优点,包括更好的特征表示和在相机转换过程中从丢失的轨迹中恢复的能力。此外,无论摄像机之间的重叠比例如何,我们的模型都能正常工作。实验结果表明,在多个实际数据集上,我们的性能大大优于现有的MC-MOT算法。值得注意的是,我们的模型适用于在线设置,但可以扩展到大规模数据集的增量方法。
Plan2Scene: Converting Floorplans to 3D Scenes(CVPR 2021)
我们要解决的任务是将一个平面图和一组住宅的相关照片转换成一个有纹理的三维网格模型,我们称之为Plan2Scene。我们的系统1)将平面图图像提升为三维网格模型;2) 根据输入的照片合成表面纹理;以及3)使用图神经网络结构推断未观察表面的纹理。为了训练和评估我们的系统,我们创建了室内表面纹理数据集,并用校正的表面作物和附加注释扩充了先前工作的平面图和照片数据集。我们的方法解决了从一组稀疏的未对齐的照片(仅部分覆盖住宅)中为主要表面(如地板、墙壁和天花板)生成可平铺纹理的难题。定性和定量评估表明,我们的系统产生了逼真的三维室内模型,在一套纹理质量指标上优于基线方法,并通过整体用户研究进行了测量。
Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking(CVPR 2021)
多人姿态估计和跟踪是视频理解的关键步骤。大多数最先进的方法依赖于在每一帧中首先估计姿势,然后才实现数据关联和细化。尽管取得了令人满意的结果,但是这种策略不可避免地容易出现漏检,特别是在严重混乱的场景中,因为这种检测跟踪范式本质上很大程度上依赖于遮挡情况下缺少的视觉证据。在本文中,我们提出了一种新的在线学习姿态动力学的方法,它独立于当前fame中的姿态检测,因此即使在包括遮挡在内的挑战性场景中也可以作为一种鲁棒估计。具体地说,我们通过一个图形神经网络(GNN)导出了这种动力学预测,它明确地考虑了时空和视觉信息。它将历史姿势轨迹作为输入,并在下一帧中为每个轨迹直接预测相应的姿势。然后,在同一帧处,将预测的姿态与检测到的姿态(如果有的话)进行聚合,以产生最终的姿态,从而潜在地恢复被估计器遗漏的闭塞关节。在PoseTrack 2017和PoseTrack 2018数据集上的实验表明,该方法在人体姿态估计和跟踪任务上都取得了优于现有技术的结果。
DAMSL: Domain Agnostic Meta Score-based Learning(CVPR 2021)
在本文中,我们提出了一种新的、通用的、高效的基于领域无关元分数的学习方法(DAMSL),它比现有的跨领域少镜头学习方法具有更高的输出性能。我们发现了以往元学习方法中存在的关键问题,即过度拟合源域,以及以往的迁移学习方法中存在的问题。我们的方法背后的核心思想是,我们不是直接使用来自微调特征编码器的分数,而是使用这些分数为域不可知度量空间创建输入坐标。应用图神经网络学习这些坐标上的嵌入函数和关系函数,处理支持集得分分布中包含的所有信息。我们在已建立的CD-FSL基准和新的领域上测试了我们的模型,结果表明我们的方法克服了以前元学习和迁移学习方法的局限性,在较小和较大的领域转移中都能显著提高准确率。
Linguistic Structures as Weak Supervision for Visual Scene Graph Generation(CVPR 2021)
先前的场景图生成工作需要在三元组(主语和对象,以及与它们相关的谓词)级别上进行分类监视,不管是否使用边界框信息。然而,场景图生成是一项整体任务:因此,整体的上下文监控应该直观地提高性能。在这项工作中,我们探讨了字幕中的语言结构如何有利于场景图的生成。我们的方法捕获了标题中提供的有关单个三胞胎之间关系的信息,以及主题和对象的上下文(例如,提到了视觉特性)。与三胞胎相比,字幕是一种较弱的监督类型,因为三胞胎中人类注释的主语和宾语的详尽列表与字幕中的名词之间的对齐较弱。然而,考虑到网络上多模态数据的大量和多样的来源(例如带有图像和标题的博客文章),语言监督比众包的三胞胎更具可伸缩性。我们展示了大量的实验对比,与以往的方法,利用实例和图像水平的监督,并烧蚀我们的方法,以显示影响,利用短语和顺序上下文,以及技术,以提高定位的主题和对象。
Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation(CVPR 2021)
同时定位与地图(SLAM)由于转弯速度快、墙壁无特征、相机质量差等原因,在视觉机器人导航等下游应用中仍然具有挑战性。我们引入了可微SLAM网络(SLAM-net)和一种导航结构,使平面机器人能够在以前看不见的室内环境中进行导航。SLAM网络将基于粒子滤波的SLAM算法编码到可微计算图中,通过SLAM算法进行反向传播学习面向任务的神经网络部件。由于SLAM-net可以为最终目标联合优化所有模型组件,因此SLAM-net可以学习在具有挑战性的条件下的鲁棒性。我们在Habitat平台上用不同的真实RGB和RGB-D数据集进行了实验。SLAM-net在噪声环境下的性能明显优于广泛采用的ORB-SLAM。我们采用SLAM网络的导航架构大大提高了人居挑战2020 PointNav任务的最新水平(成功率为37%至64%)。
Towards Accurate Text-based Image Captioning with Content Diversity Exploration(CVPR 2021)
基于文本的图像字幕(TextCap)是指在日常生活中文本无处不在的情况下,通过文本对图像进行阅读和推理,对于机器理解一个详细而复杂的场景环境至关重要。然而,这项任务是非常具有挑战性的,因为图像往往包含复杂的文本和视觉信息,很难全面描述。现有的方法试图扩展传统的图像字幕方法来解决这一问题,即用一个全局字幕来描述图像的整体场景。这是不可行的,因为复杂的文本和视觉信息不能在一个标题中很好地描述。为了解决这个困难,我们试图生成多个字幕,精确地描述图像的不同部分的细节。为了达到这个目的,有三个关键的挑战:1)很难决定要复制或解释图像文本的哪些部分;2) 在图像中捕捉不同文本之间的复杂关系是非常重要的;3) 如何生成具有不同内容的多个字幕仍然是一个悬而未决的问题。为了克服这些问题,我们提出了一种新的锚捕获方法。具体来说,我们首先找到了应该引起更多关注的重要标记,并将其视为锚定。然后,对于每个选择的锚,我们将其相关文本分组,构造相应的锚中心图(ACG)。最后,基于不同的acg进行多视点字幕生成,提高了生成字幕的内容多样性。实验结果表明,该方法不仅具有较好的SOTA性能,而且可以生成多种字幕来描述图像。
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering(CVPR 2021)
本文提出了一种新的方法,称为“桥到答案”,通过充分利用异构跨模态图的图形交互来推断给定视频问题的正确答案。为了实现这一点,我们通过利用视频和问题之间的关系来学习问题条件视觉图,使每个使用问题到视觉交互的视觉节点能够同时包含视觉和语言线索。此外,我们建议将问题图作为中间桥梁,将外观和运动的两个互补视觉信息结合起来。这种桥接体系结构允许可靠的消息通过问题的组合语义来生成适当的答案。因此,我们的方法可以学习问题的条件视觉表征归因于外观和运动,显示强大的能力,视频问答。大量的实验证明,该方法在多个基准上的性能都优于现有的方法。
Heterogeneous Grid Convolution for Adaptive, Efficient, and Controllable Computation(CVPR 2021)
本文提出了一种新的异构网格卷积算法,该算法利用图像内容的异构性,在卷积结构中实现自适应、高效和可控的计算,建立了一种基于图形的图像表示方法。更具体地说,该方法通过可微聚类的方法从卷积层构造一个数据自适应的图结构,将特征集合到图中,执行一个新的方向感知图卷积,将特征解卷积回卷积层。利用所开发的模块,本文提出了异构网格卷积网络,该网络具有高效、扩展性强的特点。我们在四个图像理解任务,语义分割,目标定位,道路提取和显著目标检测上对所提出的方法进行了评估。所提出的方法对四个任务中的三个是有效的。特别是在浮点运算量减少90%以上的情况下,该方法的性能优于强基线,实现了最先进的道路提取效果。我们将分享我们的代码、模型和数据。
Graph-based Person Signature for Person Re-Identifications(CVPR 2021)
人员再识别(ReID)的任务是在多个非重叠的摄像机视图上匹配同一个人的图像。由于视觉因素的变化,以往的研究都是从人的身份、身体部位和属性三个方面来探讨人的里德问题。但是,属性、身体部位和每个属性内部的相关性没有得到充分利用。本文提出了一种将详细的人描述(属性标签)和视觉特征(身体部分和全局特征)有效地聚合为基于图形的人签名的新方法,即基于图的人签名,并利用图卷积网络学习人的视觉签名的拓扑结构。该图被集成到一个多分支多任务框架中进行人员再识别。通过大量的实验,验证了本文提出的方法在两个大型数据集上的有效性,包括Market-1501和Duketmc-ReID。我们的方法在当前技术中取得了竞争性的结果,并且优于其他基于属性或掩码的方法。
Inferring CAD Modeling Sequences Using Zone Graphs(CVPR 2021)
One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation(CVPR 2021)
在计算机辅助设计(CAD)中,对用于创建三维形状的建模步骤进行“逆向工程”的能力是一个长期追求的目标。该过程可分解为两个子问题:将输入网格或点云转换为边界表示(或B-rep),然后推断构造该B-rep的建模操作。我们的方法的核心是一种新的几何表示:区域图。分区是通过扩展所有B-Rep面并用它们划分空间而形成的一组实体区域;分区图将这些分区作为其节点,边表示它们之间的几何邻接。分区图允许我们轻松地处理行业标准的CAD操作,不像以前使用参数化原语的CSG。我们专注于由草图+拉伸+布尔运算组成的CAD程序,这在CAD实践中很常见。我们将问题描述为在区域图允许的拉伸空间中进行搜索,并训练一个图神经网络对潜在拉伸进行评分以加速搜索。结果表明,在几何重建精度和重建时间方面,我们的方法优于现有的CSG推理基线,同时也产生了更合理的建模序列。
Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation(CVPR 2021)
在本文中,我们讨论多目标域自适应(MTDA),其中给定一个标记源数据集和多个不同数据分布的未标记目标数据集,任务是学习所有目标域的鲁棒预测。我们确定了两个关键的方面,可以帮助缓解多领域转移的MTDA:功能聚合和课程学习。为此,我们提出了一种课程图协同教学(CGCT),它使用一个双分类器头,其中一个是一个图卷积网络(GCN),它将来自不同领域相似样本的特征进行聚合。为了防止分类器对自身噪声伪标签的过度拟合,我们提出了一种基于双分类器头的协同教学策略,并辅以课程学习来获得更可靠的伪标签。此外,当领域标签可用时,我们提出了领域感知课程学习(DCL),这是一种顺序适应策略,首先适应较容易的目标领域,然后适应较难的目标领域。我们通过实验证明了我们提出的框架在多个基准上的有效性,并大幅度提高了MTDA的最新水平(例如在DomainNet上提高了5.6%)。
Graph Stacked Hourglass Networks for 3D Human Pose Estimation(CVPR 2021)
在本文中,我们提出了一种新的图卷积网络结构,图堆叠沙漏网络,用于二维到三维人体姿态估计任务。所提出的架构由重复编码器-解码器组成,其中图形结构特征在人体骨骼表示的三个不同尺度上进行处理。这种多尺度结构使得模型能够学习局部和全局特征表示,这对于三维人体姿态估计是至关重要的。我们还介绍了一种使用不同深度中间特征的多层次特征学习方法,并展示了利用多尺度、多层次特征表示所带来的性能改进。通过大量的实验验证了该方法的有效性,实验结果表明该模型的性能优于现有的模型。
Learnable Graph Matching: Incorporating Graph Partitioning with Deep Feature Learning for Multiple Object Tracking(CVPR 2021)
帧间数据关联是多目标跟踪任务的核心。该问题通常采用传统的基于图的优化方法来解决,或者通过深度学习直接学习。现有的方法大多忽略了tracklet之间的上下文信息和帧内检测,使得tracklet在严重遮挡等具有挑战性的情况下难以生存。2) 端到端关联方法仅依赖于深度神经网络的数据拟合能力,而很少利用基于优化的指派方法的优点。3) 基于图的优化方法大多采用单独的神经网络进行特征提取,这就带来了训练和推理的不一致性。因此,本文提出了一种新的可学习图匹配方法来解决这些问题。简单地说,我们将tracklet和帧内检测之间的关系建模为一个一般的无向图。然后将关联问题转化为轨迹图和检测图之间的一般图匹配问题。此外,为了使优化问题具有端到端可微性,我们将原图匹配问题松弛为连续二次规划问题,然后利用隐函数定理将其训练成一个深图网络。最后,我们的方法GMTracker在多个标准MOT数据集上取得了最先进的性能。我们的代码将在
Structure-Aware Face Clustering on a Large-Scale Graph with 10e7 Nodes(CVPR 2021)
人脸聚类是一种很有前途的未标记人脸图像标注方法。近年来,有监督的人脸聚类方法极大地提高了人脸聚类的准确率,但其性能仍不尽如人意。这些方法大致可以分为基于全局的方法和基于局部的方法。基于全局的方法受训练数据规模的限制,而基于局部的方法很难掌握整个图的结构信息,推理时间长。以前的方法无法同时解决这两个挑战。为了解决大规模训练和高效推理的难题,我们提出了结构感知人脸聚类(STAR-FC)方法。具体来说,我们设计了一种结构保持子图采样策略来挖掘大规模训练数据的威力,可以将训练数据的规模从105提高到107。在推理过程中,STAR-FC通过两个步骤:图解析和图求精来执行高效的全图聚类。第二步引入节点亲密度的概念来挖掘局部结构信息。STAR-FC在310秒内获得91.97分的部分MS1M两两F分数,超过了现有水平。此外,我们还率先在20M节点的超大规模图形上进行了训练,并在12M测试数据上取得了较好的推理效果。总之,作为一种简单有效的方法,本文提出的STAR-FC为大规模人脸聚类提供了一个强有力的基础。代码位于
Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation(CVPR 2021)
动作分割是指对视频中语义一致的视觉概念进行边界推断,是许多视频理解任务的重要要求。对于这个和其他视频理解任务,有监督的方法已经取得了令人鼓舞的性能,但需要大量的详细帧级注释。我们提出了一个完全自动和无监督的方法分割视频中的行动,不需要任何训练。我们的建议是一个有效的时间加权分层聚类算法,可以分组语义一致的视频帧。我们的主要发现是,通过考虑时间进程,用1-最近邻图表示视频足以形成语义上和时间上一致的帧簇,其中每个簇可以表示视频中的某些动作。此外,我们为动作分割建立了强大的无监督基线,并在五个具有挑战性的动作分割数据集上显示了比已发表的无监督方法显著的性能改进。我们的代码在
3DCaricShop: A Dataset and A Baseline Method for Single-view 3D Caricature Face Reconstruction(CVPR 2021)
漫画是一种艺术表现,故意夸大一个人脸上的鲜明特征,以传达幽默或讽刺。然而,从二维漫画图像重建三维漫画仍然是一项具有挑战性的任务,主要是由于缺乏数据。为了填补这一空白,我们推出了第一个大型3D漫画数据集3DCaricShop,其中包含2000幅由专业艺术家手工制作的高质量多样化3D漫画。3DCaricShop还提供了丰富的注释,包括成对的2D漫画图像、相机参数和3D面部标志。为了证明3dcaricalshop的优越性,我们提出了一种新的单视图三维漫画重建基线方法。为了保证真实的重建和合理的面部变形,我们建议将detailrich隐式函数和参数化网格表示连接起来。特别地,我们首先将模板网格注册到隐式生成器的输出中,然后将注册结果迭代地投影到预先训练好的PCA空间中,以解决伪影和自相交问题。为了解决非刚性配准过程中的大变形问题,提出了一种新的视点协作图卷积网络(VCGCN),从隐式网格中提取关键点进行精确配准。我们的方法是能够生成高保真三维漫画在一个预定义的网格拓扑,是动画准备。在3dshop上进行了大量的实验,验证了数据库的重要性和所提方法的有效性。
Holistic 3D Scene Understanding from a Single Image with Implicit Representation(CVPR 2021)
我们提出了一个新的管道整体三维场景理解从一个单一的图像,它可以预测物体形状,物体姿态和场景布局。由于这是一个高度不适定的问题,现有的方法通常会遇到形状和布局估计不准确的问题,特别是对于杂乱的场景,由于对象之间的严重遮挡。我们建议利用最新的深层隐式表示来解决这个问题。我们不仅提出了一种基于图像的局部结构化隐式网络来改进目标形状估计,而且通过一种利用隐式局部目标特征的隐式场景图神经网络来细化三维目标的姿态和场景布局。提出了一种新的物理冲突丢失方法,避免了对象间的上下文错误。大量实验表明,该方法在目标形状、场景布局估计和三维目标检测方面均优于现有的方法。
Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation(CVPR 2021)
为了生成“精确”的场景图,几乎所有现有的方法都以确定性的方式预测成对关系。然而,我们认为视觉关系在语义上往往是模糊的。具体来说,受语言学知识的启发,我们将歧义分为三类:同义歧义、上下义歧义和多视点歧义。这种模糊性自然会导致\emph{implicit multi-label}的问题,从而激发了对不同预测的需求。在这项工作中,我们提出了一个新的即插即用概率不确定性建模(PUM)模块。它将每个联合区域建模为高斯分布,其方差度量相应视觉内容的不确定性。与传统的确定性方法相比,这种不确定性建模带来了特征表示的随机性,使得预测具有多样性。作为一个副产品,PUM还能够覆盖更细粒度的关系,从而减轻对频繁关系的偏见。在大规模视觉基因组基准上的大量实验表明,将PUM与新提出的ResCAGCN相结合可以获得最先进的性能,特别是在平均召回度量下。此外,我们通过将PUM插入到一些现有模型中,证明了PUM的普遍有效性,并对其生成不同但合理的视觉关系的能力进行了深入的分析。
Robust Point Cloud Registration Framework Based on Deep Graph Matching(CVPR 2021)
三维点云配准是计算机视觉和机器人技术中的一个基本问题。在这方面已经有了广泛的研究,但是现有的方法在离群点和时间限制占很大比例的情况下遇到了很大的挑战,但是没有很好的转换初始化。近年来,一系列基于学习的算法被提出,并显示出其在速度上的优势。其中许多都是基于两点云之间的对应关系,因此它们不依赖于变换初始化。然而,这些基于学习的方法对异常值非常敏感,从而导致更多不正确的对应。本文提出了一种基于深度图匹配的点云配准框架。具体地说,我们首先将点云转化为图形,并为每个点提取深层特征。然后,我们开发了一个基于深度图匹配的模块来计算软对应矩阵。通过图匹配,不仅考虑了每个点的局部几何特征,而且在更大范围内考虑了点的结构和拓扑结构,从而找到更正确的对应关系。在测试阶段,将软对应转换为硬一对一对应,通过奇异值分解进行配准。此外,本文还提出了一种基于变换器的边生成方法,进一步提高了对应关系的质量。对干净的、有噪声的、部分到部分的和看不见的类别点云进行了大量的配准实验,实验结果表明,该方法取得了很好的效果。代码将公开
TPCN: Temporal Point Cloud Networks for Motion Forecasting(CVPR 2021)
提出了一种新颖灵活的时空联合学习轨迹预测框架&时间点云网络(TPCN)。与现有的将代理和地图信息光栅化为二维图像或在图形表示中操作的方法不同,我们的方法扩展了点云学习和动态时间学习的思想,通过将轨迹预测分解为空间和时间维度来捕获空间和时间信息。在空间维度上,代理可以被看作是一个无序的点集,因此将点云学习技术应用于代理的位置建模是非常简单的。虽然空间维度不考虑运动和运动信息,我们进一步提出了动态时间学习来建模代理的运动随时间的变化。在Argoverse运动预测基准上的实验表明,该方法达到了最新的效果。
Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection(CVPR 2021)
由于真实世界数据固有的长尾分布,少镜头目标检测是一个迫切而持久的问题。它的性能很大程度上受到新类数据稀缺的影响。但是无论数据的可用性如何,新类和基类之间的语义关系都是不变的。在这项工作中,我们研究了如何利用这种语义关系和视觉信息,并将显式关系推理引入到新目标检测的学习中。具体来说,我们通过从大量文本中学习的语义嵌入来表示每个类的概念。检测器被训练成将物体的图像表示投影到这个嵌入空间。我们还发现了简单地使用原始嵌入与启发式知识图的问题,并建议增加嵌入与动态关系图。结果表明,我们的少镜头探测器SRR-FSD对新物体镜头的变化具有鲁棒性和稳定性。实验表明,SRR-FSD能在较高的射门下获得竞争性的结果,更重要的是,在较低的外显和内隐射门条件下,SRR-FSD的性能显著提高。从预训练的分类数据集中删除隐式镜头的基准协议可以为将来的研究提供更现实的背景。
Learning Graph Embeddings for Compositional Zero-shot Learning(CVPR 2021)
在组合零镜头学习中,目标是识别训练集中观察到的视觉原语状态(如老的、可爱的)和物体(如汽车、狗)的不可见组合(如老狗)。这是具有挑战性的,因为同样的状态可以改变狗的视觉外观,与汽车有很大的不同。作为一个解决方案,我们提出了一个新的图形公式称为组合图嵌入(CGE)学习图像特征,组合分类器,并在一个端到端的方式潜在的视觉原语表示。该方法的关键是利用图形结构中状态、对象及其组合之间的依赖关系,实现从可见到不可见的组合之间的知识转移。通过学习概念之间编码语义的联合兼容性,我们的模型允许在不依赖外部知识库(如WordNet)的情况下泛化到看不见的组合。我们表明,在具有挑战性的广义成分零射击设置我们的计算机生成引擎显着优于麻省理工学院和UT捷步达康的最新水平。我们还提出了一个新的基准为这项任务的基础上,最近的GQA数据集。
Binary Graph Neural Networks(CVPR 2021 Camera-Ready Version)(CVPR 2021)
图神经网络(GNNs)是一种强大而灵活的非规则数据表示学习框架。当它们将经典的cnn在网格上的操作推广到任意拓扑时,GNNs也带来了它们的euclide对应的许多实现挑战。模型大小、内存占用和能耗是许多现实应用程序共同关注的问题。网络二值化将一个比特分配给参数和激活,从而显著降低了内存需求(与单个精度浮点数相比高达32x),并最大限度地利用现代硬件上快速SIMD指令对可测量加速的好处。然而,尽管经典cnn的二值化工作大量,但在几何深度学习中,这一领域仍没有得到很大的探索。本文提出并评价了图形神经网络二值化的不同策略。通过对模型的仔细设计和训练过程的控制,在具有挑战性的基准上,二元图神经网络的训练成本仅适中。特别是在哈明空间中,我们提出了第一个动态图神经网络,能够利用二元向量的有效k-NN搜索来加快动态图的构造。进一步验证了二进制模型在嵌入式设备上的显著节省。我们的代码在Github上是公开的。
Roof-GAN: Learning to Generate Roof Geometry and Relations for Residential Houses(CVPR 2021)
本文提出了一种新的生成性对抗网络——屋顶GAN,它作为一组屋顶基本体生成了住宅屋顶结构的结构几何及其相互关系。给定原始体的数量,生成一个结构屋顶模型作为图形,该模型由1)原始几何体作为每个节点的栅格图像,编码面分割和角度;2) 各边缘原始共线/共面关系;以及3)在每个节点以矢量格式生成的基元几何,由一个新的可微矢量器在执行关系的同时生成。该判别器被训练来评估完整端到端架构中的原始栅格几何、基本关系和原始矢量几何。定性和定量评价表明,我们的方法在生成不同的、真实的屋顶模型方面的有效性,并提出了一种新的度量方法来完成结构几何生成任务。代码和数据可在
Quantifying Explainers of Graph Neural Networks in Computational Pathology(CVPR 2021)
深入学习方法的可解释性对于促进数字病理学的临床应用是必要的。然而,目前流行的基于像素处理的深度学习方法和解释技术(explainers)忽视了生物实体的概念,从而使病理学家的理解复杂化。在这项工作中,我们通过采用基于生物实体的图形处理和图形解释来解决这一问题,使病理学家能够获得解释。在这种情况下,一个主要的挑战成为辨别有意义的解释,特别是在一个标准化和量化的方式。为此,我们提出了一套新的量化指标的统计基础上的类可分性使用病理测量的概念来表征图形解释。我们使用所提出的指标来评估三种类型的图解释者,即分层相关传播、基于梯度的显著性和图剪枝方法,来解释乳腺癌亚型的细胞图表示。通过使用特定领域的直观概念,所提出的度量也适用于其他领域。我们验证了专家病理学家在BRACS数据集(一个乳腺癌ROI的大队列)上的定性和定量研究结果。
Sequential Graph Convolutional Network for Active Learning(CVPR 2021)
提出了一种基于序列图卷积网络(GCN)的基于池的主动学习框架。来自数据池的每个图像的特征表示图中的一个节点,边对它们的相似性进行编码。以少量随机抽样的图像作为种子标记样本,通过最小化二值交叉熵损失,学习图的参数来区分标记节点和未标记节点。GCN在节点之间执行消息传递操作,并由此导出强关联节点的类似表示。我们利用GCN的这些特性来选择与标记样本完全不同的未标记样本。为此,我们利用图节点嵌入及其置信度得分,并采用诸如核心集和基于不确定性的方法等抽样技术来查询节点。我们将新查询节点的标签从未标记翻转到标记,重新训练学习者优化下游任务和图形,使其修改目标最小化。我们在固定预算内继续这一进程。我们在6个不同的benchmarks:4 real 图像分类,1个基于深度的手姿势估计和1个合成RGB图像分类数据集。我们的方法优于一些有竞争力的基线,如VAAL、学习损失、核心集,并在多个应用程序上实现了最新的性能。实现可在以下位置找到:
UV-Net: Learning from Boundary Representations(CVPR 2021)
我们介绍了UV-Net,一种新的神经网络结构和表示方法,用于直接处理三维CAD模型的边界表示(B-rep)数据。B-rep格式广泛应用于设计、仿真和制造行业,以实现复杂和精确的CAD建模操作。然而,由于数据结构的复杂性及其对连续非欧几里德几何实体和离散拓扑实体的支持,B-rep数据在用于现代机器学习时提出了一些独特的挑战。在本文中,我们提出了一个B-rep数据的统一表示,它利用曲线和曲面的U和V参数域来建立几何模型,并提出了一个邻接图来显式地建立拓扑模型。这就产生了一种独特而高效的网络结构UV-Net,它以计算和存储效率高的方式耦合图像和图形卷积神经网络。为了有助于将来的研究,我们提出了一个合成标记的B-rep数据集SolidLetters,它来源于人类设计的字体,在几何结构和拓扑结构上都有变化。最后,我们证明了UV-Net可以推广到五个数据集上的有监督和无监督任务,同时优于点云、体素和网格等其他三维形状表示。
TearingNet: Point Cloud Autoencoder to Learn Topology-Friendly Representations(CVPR 2021)
拓扑很重要。尽管最近点云处理与几何深度学习取得了成功,但用学习模型捕捉点云数据的复杂拓扑结构仍然是一项艰巨的任务。给定一个点云数据集,其中包含各种类型的对象,或包含多个对象的场景,我们提出了一个自动编码器TearingNet,它解决了使用固定长度描述符表示点云的挑战性任务。不同于现有的直接将0亏格的预定义基元(如二维正方形面片)变形为对象级点云的工作,我们的TearingNet的特点是提出了一个撕裂网络模块和一个相互迭代交互的折叠网络模块。特别地,撕裂网络模块明确地学习点云拓扑结构。通过打破一个原始图形的边缘,它将图形撕成补丁或孔,以模拟目标点云的拓扑结构,导致忠实的重建。实验表明,在重建点云以及生成比基准更为拓扑友好的表示方面,我们的方案具有优越性。
clDice -- a Novel Topology-Preserving Loss Function for Tubular Structure Segmentation(CVPR 2021)
对管状、网状结构(如血管、神经元或道路)的精确分割涉及到许多研究领域。对于此类结构,拓扑结构是其最重要的特征;特别是保持连通性:在血管网络的情况下,缺少连通的血管会完全改变血流动力学。我们引入了一种新的相似性度量,称为centerlineDice(简称clDice),它是在分割模板与其(形态)骨架的交集上计算的。我们从理论上证明了clDice保证了二值2D和3D分割的拓扑保持到同伦等价。在此基础上,我们提出一个计算效率高、可微的损失函数(soft-clDice)来训练任意的神经分割网络。我们在五个公共数据集(包括血管、道路和神经元(2D和3D))上对软clDice损失进行了基准测试。对软clDice的训练使得分割具有更准确的连通性信息、更高的图相似度和更好的体积分数。
PU-GCN: Point Cloud Upsampling using Graph Convolutional Networks(CVPR 2021)
基于学习的点云上采样管道的有效性在很大程度上依赖于其中使用的上采样模块和特征提取器。对于点上采样模块,我们提出了一种称为NodeShuffle的新模型,它使用图卷积网络(GCN)来更好地编码点邻域中的局部点信息。NodeShuffle用途广泛,可以整合到任何点云上采样管道中。大量实验表明NodeShuffle是如何持续改进最先进的上采样方法的。在特征提取方面,我们还提出了一种新的多尺度点特征提取算法,称为Inception-DenseGCN。通过在多个尺度上聚合特征,此特征提取器可以在最终的上采样点云中进一步提高性能。我们将Inception DenseGCN和NodeShuffle结合到一个新的点上采样管道PU-GCN中。PU-GCN以更少的参数和更有效的推理建立了最新的性能。
ECKPN: Explicit Class Knowledge Propagation Network for Transductive Few-shot Learning
近年来,基于transductive图的分类方法在少镜头分类中取得了很大的成功。然而,大多数现有的方法忽略了对类级知识的探索,而这些知识很容易被人类从少数几个样本中学习到。针对这一问题,本文提出了一种由比较、压缩和校正模块组成的显式类知识传播网络(ECKPN)。具体来说,我们首先使用比较模块来探索成对样本关系,以学习实例级图中的丰富样本表示。然后对实例级图进行压缩,生成类级图,有助于获取类级的可视化知识,便于对不同类之间的关系进行建模。其次,利用校正模块对类之间的关系进行显式刻画,得到更具区分性的类级知识表示。最后,将类级知识与实例级样本表示相结合,指导查询样本的推理。我们在四个镜头分类基准上进行了大量的实验,实验结果表明,所提出的ECKPN明显优于现有的方法。
Harmonious Semantic Line Detection via Maximal Weight Clique Selection
提出了一种新的语义线检测算法。我们开发了两个网络:选择网络(S-Net)和协调网络(H-Net)。首先,S-Net计算候选线的概率和偏移量。其次,我们通过选择和删除过程过滤掉不相关的行。第三,我们构造了一个完整的图,其边权值由H网计算。最后,我们确定了一个代表一组最佳语义线的最大权重团。此外,为了评估检测到的线的整体和谐度,我们提出了一种新的度量,称为HIoU。实验结果表明,该算法能有效地检测出和谐语义线。我们的代码在
Few-Shot Incremental Learning with Continually Evolved Classifiers
少镜头类增量学习(FSCIL)旨在设计一种机器学习算法,该算法能够在不忘记旧类知识的情况下,从少量数据点不断地学习新概念。困难在于,来自新类的有限数据不仅会导致严重的过度拟合问题,而且还会加剧臭名昭著的灾难性遗忘问题。此外,由于训练数据在FSCIL中是有序的,学习的分类器只能在单个会话中提供区分性信息,而FSCIL要求所有的类都参与评估。本文从两个方面讨论了FSCIL问题。首先,我们采用一种简单而有效的表示与分类器的解耦学习策略,在每次增量会话中只更新分类器,避免了表示中的知识遗忘。通过这样做,我们证明了一个预先训练的主干加上一个非参数类均值分类器可以击败最先进的方法。其次,为了使在单个会话中学习到的分类器适用于所有类,我们提出了一种连续进化分类器(CEC),它利用一个图模型在分类器之间传播上下文信息进行自适应。为了实现CEC的学习,我们设计了一种伪增量学习范式,该范式通过从基础数据集中采样数据,间歇构造一个伪增量学习任务来优化图参数。在CIFAR100、minimagenet和Caltech USCD Birds-200-2011(CUB200)三个流行的基准数据集上的实验表明,我们的方法显著优于基线,并获得了新的最新结果,具有显著的优势。
SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction
行人轨迹预测是自动驾驶仪中的一项关键技术,由于行人之间的相互作用十分复杂,因此对其进行预测仍然是一项具有挑战性的工作。然而,以往基于稠密无向相互作用的研究,由于建模过程中存在多余的相互作用,忽略了轨迹运动趋势,不可避免地导致了与现实的较大偏差。为了解决这些问题,我们提出了一种稀疏图卷积网络(SGCN)来预测行人轨迹。具体地说,SGCN使用稀疏有向空间图来显式地建模稀疏有向交互,以捕获自适应交互。同时,利用稀疏有向时态图对运动趋势进行建模,便于基于观测方向进行预测。最后,将上述两个稀疏图进行融合,估计出双高斯分布的弹道预测参数。我们在ETH和UCY数据集上对所提出的方法进行了评估,实验结果表明,我们的方法在平均位移误差(ADE)和最终位移误差(FDE)上分别比现有的方法高出9%和13%。值得注意的是,可视化显示,我们的方法可以捕捉行人之间的适应性互动和他们的有效运动趋势。
Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation
场景图生成是一项重要的视觉理解任务,有着广泛的视觉应用。尽管最近取得了巨大的进展,但由于固有的长尾类分布和大的类内变异,它仍然具有挑战性。为了解决这些问题,我们引入了一种新的具有自适应信息传播机制的二部图神经网络来生成无偏场景图。此外,我们提出了一种有效的双层数据重采样策略,以缓解训练图网络时数据分布不均衡的问题。我们的方法在视觉基因组、开放图像V4/V6等具有挑战性的数据集上取得了优于以往方法或具有竞争力的性能,证明了其有效性和通用性。
Picasso: A CUDA-based Library for Deep Learning over 3D Meshes
我们介绍了毕加索,一个基于CUDA的图书馆,包括在复杂的现实世界的三维网格上进行深入学习的新模块。层次神经网络结构在多尺度特征提取中被证明是有效的,这意味着需要快速的网格抽取。然而,现有的方法依赖于基于CPU的实现来获得多分辨率网格。我们设计了GPU加速的网格抽取,以方便快速有效地降低网络分辨率。在抽取过程中收集的顶点簇上定义了池化和非池化模块。对于网格上的特征学习,Picasso包含三种新颖的卷积,即facet2vertex、vertex2facet和facet2facet卷积。因此,它将网格视为由顶点和面组成的几何结构,而不是像以前的方法那样将其视为具有边的空间图。Picasso还在其过滤器中加入了模糊机制,以增强对网格采样(顶点密度)的鲁棒性。它利用高斯混合来定义顶点卷积的模糊系数,利用重心插值来定义其余两个卷积的系数。在这个版本中,我们在S3DIS上用竞争性的分割结果证明了所提出的模块的有效性。这个图书馆将通过图书馆向公众开放
Rethinking Graph Neural Architecture Search from Message-passing
图形神经网络(GNNs)是最近出现的一种从图形数据中学习的标准工具。当前的GNN设计工作依赖于大量的人力资源来探索不同的消息传递机制,并且需要手动枚举来确定适当的消息传递深度。受CNN中神经结构搜索(NAS)强大搜索能力的启发,提出了一种设计新颖搜索空间的图神经结构搜索(GNAS)。GNAS可以自动学习更好的体系结构,并在图上传递最佳的消息深度。具体地说,我们设计了一种图神经结构范式(GAP),采用树形拓扑计算过程和消息传递机制中的两种细粒度原子操作(特征过滤和邻居聚集)来构造强大的图网络搜索空间。特征过滤进行自适应特征选择,邻域聚合捕获结构信息并计算邻域统计信息。实验表明,我们的GNAS可以通过多种消息传递机制和最优的消息传递深度来寻找更好的GNNs。在三个经典的图形任务中,搜索到的网络在五个大规模数据集上比最先进的手工设计和基于搜索的GNNs有了显著的改进。代码可在
Confluent Vessel Trees with Accurate Bifurcations
我们感兴趣的是无监督重建复杂的近毛细血管与成千上万的分支在监督和学习是不可行的。无监督方法可以使用许多结构约束,例如拓扑、几何、物理等。常用的技术是在测地管状图上使用MST的变体,以最小化对称成对代价,即距离。我们展示了这种标准无向管状图的局限性,在流动“方向性”很关键的分叉处产生了典型的误差。我们引入了一个新的一般概念的汇合连续定向曲线形成血管树,并说明如何加强它在离散管状图。由于汇合是一个高阶性质,本文提出了一种利用有向图上的最小树形结构,通过简单的流外推弧构造来实现汇合的血管树重构算法。对大的近毛细血管亚体素血管体积的实验表明,在分叉处重建的准确性显著提高。我们的代码也已经公开了。
Skeleton Aware Multi-modal Sign Language Recognition
手语是聋哑人或言语障碍者常用的语言,但需要付出很大的努力才能掌握。手语识别(Sign Language Recognition,SLR)的目的是通过对给定视频中的手语进行识别来弥合手语使用者与他人之间的鸿沟。这是一项重要而富有挑战性的任务,因为手语是通过快速而复杂的手势、身体姿势甚至面部表情来完成的。近年来,基于骨架的动作识别因其与背景变化的独立性而受到越来越多的关注。然而,基于骨架的单反相机由于缺少手部关键点的标注,目前仍处于探索阶段。一些研究者已经尝试使用带有姿态估计器的手检测器来提取手的关键点,并通过神经网络学习识别手语,但是没有一种方法优于基于RGB的方法。为此,我们提出了一种新的骨架感知多模态SLR框架(SAM-SLR),利用多模态信息提高识别率。具体来说,我们提出了一个手语图卷积网络(SL-GCN)来模拟嵌入式动态,以及一个新的可分离时空卷积网络(SSTCN)来利用骨架特征。RGB和深度模式也被纳入并组合到我们的框架中,以提供补充基于骨架的SL-GCN和SSTCN方法的全局信息。因此,在2021年,SAM-SLR在RGB(98.42%)和RGB-D(98.53%)两个轨道上都取得了最高的性能,这是针对大规模独立签名SLR挑战的。我们的代码在
Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph Analysis
场景理解是计算机视觉中的一个关键问题。本文提出了一种基于点的三维场景图生成(SGGpoint)框架,通过场景图构建、推理和推理三个阶段有效地连接感知和推理,实现场景理解。在推理阶段,建立了一个面向边缘的图卷积网络(EdgeGCN)来利用多维边缘特征进行显式关系建模,同时探索了节点和边缘之间两种相关的孪生交互机制,实现了场景图表示的独立演化。总的来说,我们的综合SGGpoint框架是建立在寻找和推断场景结构的兴趣,从现实世界和合成的三维点为基础的场景。实验结果表明,面向边缘的推理在场景图生成研究中具有很好的应用前景。我们也在一些传统的图表示学习基准数据集上展示了我们的方法的优势,包括引文网络的节点分类和分子分析的全图识别问题。
Hierarchical and Partially Observable Goal-driven Policy Learning with Goals Relational Graph
针对部分可观察的目标驱动任务(如目标驱动的视觉导航),提出了一种基于目标关系图的两层递阶强化学习方法。我们的GRG通过Dirichlet分类过程捕捉目标空间中所有目标的潜在关系,该过程有助于:1)向实现指定的最终目标提出子目标的高层网络;2) 低层网络走向最优策略;总体系统概括了看不见的环境和目标。我们使用两种部分可观察的目标驱动任务来评估我们的方法——网格世界域和机器人对象搜索任务。实验结果表明,该方法对未知环境和新目标都具有良好的泛化性能。
file = open('2.txt', 'w')
with open(r"Graph_in_CVPR_continue.txt", "r") as f:
for line in f.readlines():
line = line.strip('\n')
line = repr(line)
if len(line)>2:
line = line.strip("'")
if "##" in line:
file.write(line + '\n')
elif "https" in line:
file.write("(" + line + ")\n" )
else:
file.write("[" + line + "]")
file.close()