Expressive Scene Graph Generation Using Commonsense Knowledge Infusion for Visual Understanding and Reasoning
摘要
场景图生成的目的是通过建模对象及其结构化关系来捕捉图像中的语义元素,这对于视觉理解和推理任务(包括图像字幕、视觉问题回答、多媒体事件处理、视觉叙事和图像检索)至关重要。现有的场景图生成方法对于更高层次的视觉理解和推理提供了有限的性能和表达能力。这个挑战可以通过利用常识知识来缓解,例如关于场景图中语义元素的相关事实和背景知识。本文提出了利用一个由七个不同知识库整合而成的包含常识知识的异构知识源,通过对场景图中语义元素的多种常识知识的注入,生成丰富而具有表现力的场景图。利用目标节点的图形嵌入,利用知识源中的结构模式计算相似度量,进行图形细化和丰富。我们对基准 Visual Genome 数据集进行了实验和比较分析,其中与现有的最新技术(R@K = 25.8, 33.3, 37.8,K = 20,50,100)相比,所提出的方法取得了更高的召回率(R@K = 29.89, 35.4, 39.12,K = 20,50,100)。该方法在图像生成下游任务中的定性结果表明,利用基于常识知识的场景图生成的图像更加逼真。这些结果说明了常识知识输入在提高视觉理解和推理任务场景图生成的性能和表达能力方面的有效性。
关键词: 场景图形 · 图像表示 · 常识知识 · 视觉推理 · 图像生成
1 简介
在过去几年中,深度学习技术和多模式方法的最新进展帮助解决了视觉理解任务中的几个挑战性问题,包括对象检测[57]和视觉关系检测[14,32,35]。为了以结构化和明确的方式有效地捕捉和描述图像特征和对象关系,已经做出了许多努力。在这个方向上,场景图生成(SGG)[3,46,48]由于其通过以结构化方式建模对象及其关系来捕捉视觉场景的详细语义的能力而引起了广泛关注。基于图的结构化图像表示(如场景图)被用于广泛的视觉理解任务,包括图像重建[11]、图像字幕[61]、视觉问答(VQA)[22,25]、图像检索[55]、视觉故事讲述[54]和多媒体事件处理[5,20]。SGG的性能受到挑战的影响,包括众源数据集中的偏差和注释问题[7,23]。该领域的研究人员已经做出了一些努力,通过使用最先进的方法来应对这些挑战,例如反事实分析[48]、自我监督学习[40]和语言监督[62]。然而,在SGG方法的表达性、准确性和鲁棒性方面仍然需要显著改进。
除了场景图中的对象及其关系外,上一段提到的下游任务的高级视觉推理需要场景及其组成部分的背景信息,以模仿人类使用常识推理的认知能力。利用常识知识进行推理是非常具有挑战性的,因为它的隐含性质;它在日常生活中被人们普遍接受和使用,但在我们说话或写作时通常被忽视。大多数现有的SGG方法都使用包含大量图像集合以及对象、属性、关系、场景图等注释的数据集,如视觉基因组(VG)[23]和VRD[31]。这些数据集具有有限的或没有明确的常识知识,这限制了场景图的表达能力和下游任务中的高级推理能力,除非常识知识从外部来源注入。有几个公开的来源[21,43,44,50],包括常识知识的不同形式和概念。已经做出了一些整合努力[9,17],将不同来源整合为一个全球常识知识源,以共同利用其多样的知识和覆盖范围。这些整合的源代码已被整合并用于语言处理方法[33,58],以提高其健壮性和表达能力。整合的常识知识源尚未用于视觉理解和推理,但是,它们提供丰富多样的背景信息和场景中概念的相关事实的能力有助于提高SGG的性能,并为下游推理提供丰富而富有表现力的场景表示。
图1显示了一个激励人心的图像示例及其基于常识的场景图表示。图像的场景图包含代表对象及其成对交互的关系三元组(女人、握着、球拍)和(女人、在网球场上)。虽然我们很容易直接推断出女子正在打网球,但机器在没有一些外部常识的情况下推断出这一点很有挑战性。从常识知识图(CSKG)[17]中提取的相关节点和边,包括(女子,capableOf,网球)和(球拍,usedFor,网球),为更高层次的推理提供了必要的背景信息和事实。在本文中,我们提出了一种基于常识的SGG方法,该方法生成图像的场景图,并从CSKG[17](一个大型的整合常识知识源)中注入场景图中概念的背景知识和相关事实。图嵌入用于计算图细化和丰富步骤中对象节点的相似性,因为相似实体往往在嵌入空间中具有相似的向量表示[38]。常识知识补充和丰富了场景图关系,提高了SGG的性能和场景图表示的表达能力。我们在基准VG数据集上评估了所提出的方法,并注意到SGG关系预测结果的改进。令人鼓舞的实验结果描述了常识知识在场景图生成中的潜力及其在视觉理解和推理中的应用前景。本文的主要贡献包括:
1. 我们提出了一种基于常识的场景图生成方法,该方法基于图嵌入从常识知识源中提取背景知识和相关事实,并将它们集成到场景图中,以生成图像的丰富而富有表现力的场景图表示。我们使用了一个异质知识图[17],其中包含丰富的常识知识,这些知识来自七个不同的来源,但尚未对视觉理解和推理进行研究。
2. 我们使用标准度量对基准视觉基因组数据集进行了实验和比较分析(如图4、图5和表2所示),并表明所提出的方法实现了更高的召回率(R@K=29.89,35.4,39.12(K=20,50,100)与现有最先进技术相比(R@K=25.8,33.3,37.8(K=20,50,100)。
3. 我们将图像生成作为场景图生成的下游任务,并展示了常识知识注入后从场景图生成图像的改进结果,如图6所示。
2 相关工作
2.1 场景图生成
场景图生成(SGG)是一个具有挑战性的研究问题,正受到计算机视觉研究者的积极研究。在合成方法中,主语、谓语和宾语分别被检测出来,并在随后进行聚合。Li等人[26]使用图像中检测到的对象为主语、谓语和宾语生成单独的区域建议;这些区域建议与来自深度神经网络(DNN)的特征进行聚合,以达到三重预测。这种方法是可扩展的,但在罕见或不可见关系的情况下,它们的性能非常有限。用于视觉关系检测的视觉短语模型将关系三元组视为单个实体。Sadeghi等人[42]使用DNN来预测对象以及视觉短语或三元组,然后通过将这些预测与图像中的其他预测进行比较来细化这些预测。深度关系网络也用于视觉关系检测,其中DNN还利用对象和谓词之间的统计依赖性[6]。与合成模型相比,视觉短语模型对视觉关系的多样性不太敏感,但它们需要在具有大量对象和谓词词汇表的数据集中有更多的训练示例。
最近的场景图生成和视觉关系检测方法融合了DNN中的视觉和语义嵌入,以大规模检测视觉关系。Zhang等人[67]在三个分支中分别为主语、谓语和宾语提取视觉特征,谓语分支在稍后阶段将其特征与主语和宾词特征融合,以利用主语与宾语之间的交互进行关系检测。在学习过程中,从文本空间提取的特征也被嵌入为视觉特征的标记。在类似的方法中,Peyre等人[39]在学习过程中添加了一个视觉短语嵌入空间,以实现类比推理来预测看不见的关系,并提高对视觉关系的外观变化的鲁棒性。Tang等人[48]试图通过利用因果推理和总直接效应来解决SGG模型中由于数据集中关系的不平衡分布而产生的偏差问题。
现有的研究大多侧重于图像中的视觉和语言模式,而忽略了图像中概念的背景信息和相关事实,以及常识知识图中场景图元素的结构模式,这在理解和解释视觉概念方面具有重要的潜力。在下一小节中,只有少数近期作品明确利用常识知识图进行视觉理解和推理。
2.2 常识知识来源和灌输
自20世纪60年代以来,常识知识的获取和表达及其推理一直是人工智能领域的主要挑战之一[34],这导致研究界开发和管理了几种包含不同形式和背景下常识知识的知识源[16]。表1列出了一些常见的常识知识来源及其详细信息。其中一些来源,尤其是ConceptNet[44],已用于一些视觉理解和推理技术。这些技术要么从源中提取相关事实并在特定阶段将其嵌入模型[11,37,45,66],要么使用基于图的消息传递将源中的结构信息嵌入模型的表示[4,24,56,64]。Chen等人[4]和Zellers等人[66]通过在谓词分类模型中使用预先计算的频率先验来结合来自数据集统计的常识知识,以提高SGG的性能。Wan等人[51]建议使用常识知识图和视觉特征来增强视觉关系检测中检测对象的谓词检测。Gu等人[11]从单一来源检索相关事实,即每个对象的ConceptNet[44],使用递归神经网络和SGG中的注意机制将事实编码为其特征。Kan等人[19]从ConceptNet中注入常识知识,用于SGG中的零镜头关系预测。现有的方法大多从知识源中注入三元组,而忽略了单个三元组之外的丰富结构信息。
知识源丰富多样,涵盖常识知识的不同领域和背景,可将其整合,以提供丰富多样的常识知识源,并增加其在下游推理任务中的影响。Zareian等人[63]提出了GB Net,它将场景图中的实体和边与从VG、WordNet和ConceptNet中提取的常识图中的对应实体和边连接起来,并使用基于图神经网络的消息传递迭代地细化场景图。Guo等人[12]使用实例关系变换器从VG和SGG的ConceptNet中提取关系和常识知识。这些是唯一利用多个知识源的SGG方法,而VQA中使用了DBpedia、ConceptNet和WebChild的子集[53],其中包含视觉概念的知识[30,56]。CommonSense Knowledge Graph(CSKG)[17]是目前最新和最大的整合来源,它整合了来自七个不同且不相交的来源的常识知识,包括ConceptNet[44]、Wikidata[50]、ATOMIC[43]、VG[23]、Wordnet[36]、Roget[21]和FrameNet[2]。Ma等人[33]在语言模型中使用了CSKG,并通过利用CSKG中的各种相关知识并将这些知识与任务对齐,在常识性问题回答中取得了最佳表现。据我们所知,CSKG在视觉理解和推理任务中的应用和潜力尚未得到探索。
知识注入方法还利用了知识图嵌入,知识图嵌入广泛用于知识图中实体和关系的向量表示[38]。知识图嵌入捕获了KG中语义的潜在属性,因此相似实体用相似向量表示。使用向量相似性度量(例如余弦相似性)来解释向量空间中实体的相似性。知识图嵌入已用于若干链接预测任务,包括视觉关系检测[1]和推荐系统[52]。
3 采用方法
所提出的基于常识的场景图生成方法采用基于DNN的方法来检测图像中的对象及其成对关系,以生成其场景图,然后使用CSKG[17]进行常识知识注入,以以三元组的形式用背景知识和相关事实丰富场景图。图2提供了拟议方法的详细概述。建议的方法基于SGG工具包[47]。
遵循最近SGG方法的趋势[48,49,59,66],我们使用更快的RCNN[41]检测图像中的对象。我们使用ResNeXt-101-FPN架构[29]作为Faster RCNN的骨干CNN。更快的RCNN将图像I作为输入,并提供n个检测到的对象的对象边界框b和对象类标签l。特征图F也从Faster RCNN中的底层CNN中提取。
在检测对象并提取特征图之后,预测对象对之间的关系。将RoIAlign[13]应用于提供每个检测对象的区域特征a的图像区域I[b]。
对于所有n个对象,双向长期记忆(Bi-LSTM)层[66]用于将a、I[b]和l编码为单独的视觉上下文特征vi。
对象的单独视觉上下文特征由另一组Bi-LSTM层编码,并连接成组合的成对对象特征vij。
同样,通过嵌入层对成对对象标签(li,lj)进行编码,以计算语言先验pij。通过将RoIAlign应用于F中成对对象的并集区域来提取上下文并集特征uij。
最后,使用求和特征融合函数[8]和softmax函数对表示对象对的所有三种类型的特征进行融合,以预测关系类标签rij和关系类概率cij。场景图S通过将成对对象和关系链接到图结构中而形成。
为了从CSKG中注入表示背景知识和相关事实的相关三元组[17],我们将场景图解析为与CSKG数据模型兼容的格式。由于相似实体往往在嵌入空间中具有相似的向量表示[38],我们利用图嵌入来计算图细化和丰富步骤中各种操作的节点的相似性。首先使用算法1细化场景图预测以丢弃任何冗余或不相关的预测。CSKG中具有高度重叠边界框、相似名称或相同结构模式的预测对象表明同一对象可能存在多个冗余预测。在这个阶段,通过丢弃具有其边界框的高交集(IoU)或CSKG嵌入与另一个对象节点的高相似性得分的对象节点。
我们使用知识图工具包(KGTK)[15]查询CSKG并从CSKG中提取三元组,其中包括预测场景图中的主题或对象节点。提取后,在预处理步骤中丢弃任何重复的三元组和两个节点都相似的三元(例如(person,同义词,person)和(chair,similarTo,chair)),因为它们不提供任何有用的信息。基于对象节点和提取节点的嵌入相似性,通过场景图中提取的边缘将与相应对象节点具有合理结构相似性的提取节点链接起来。如果提取的节点已存在于场景图中,则新边将链接到现有节点,否则,将在场景图中创建并链接新节点。在后处理中,根据原始场景图表示调整丰富场景图的格式,以便可以评估丰富场景图以进行性能比较,或者可以在下游推理任务中使用。由于从VG集成的谓词在CSKG中表示为“LocatedNear”边缘类型,我们将从CSKG的VG源中提取的三元组中的谓词替换为原始VG数据集中节点之间最频繁的谓词类型。该后处理步骤使用来自VG的关于关系中的一对对象(节点)之间可能的谓词的统计先验知识来进一步解释关系谓词。 算法2概述了从CSKG中提取常识知识并将其集成到场景图中的步骤。对于实验评估,两种算法中的阈值都设置为0.5。这些阈值决定了检测到的和注入的关系的数量和准确性之间的权衡。
4 实验和结果
4.1 实验设置
数据集。我们使用视觉基因组数据集的常用子集[59],其中包含最常见的50个谓词类和150个对象类,用于训练更快的RCNN、SGG模型和图像生成网络。70%的培训样本用于培训,其中5000个样本用于培训期间的验证。其余30%的样品用于评估。每个图像的较长尺寸被调整为1024像素,较短尺寸被相应调整。我们使用预先训练的CSKG嵌入[17]来计算所提出方法的图细化和丰富步骤中节点的相似性。
评估协议。我们使用交叉熵损失来评估Faster RCNN和SGG模型的训练性能。平均平均精度(mAP)[10]用于评估Faster RCNN的目标检测性能。为了评估常识知识注入前后SGG的性能,Recall@K (R@K)[31],其定义为在前K个置信关系预测中预测正确关系的分数。我们使用标准度量和基准数据集比较了所提出的方法和最近的SGG方法的性能。我们还分析了该方法的一些定性结果。此外,我们采用现有的图像生成方法[18]作为场景图生成的下游任务,通过比较常识知识注入前后场景图的图像生成结果,进一步评估所提出的方法。
表2.拟议方法与现有最先进的SGG方法在以下方面的比较Recall@K (R@K)视觉基因组数据集
4.2 结果
模型的培训和评估。我们使用随机梯度下降(SGD)作为优化器,批次大小为2,初始学习率为0.002,在60k和80k次迭代后衰减了10倍。我们冻结经过训练的Faster RCNN,并使用SGD作为优化器,将整个SGG模型训练在视觉基因组数据集中的对象和关系的图像和基础真值注释上,批量大小为4,初始学习率为0.04,当验证性能停止显著提高时,在训练过程中,初始学习速率衰减了10倍。目标检测和训练损失的训练损失和验证mAP图以及R@K图3显示了在训练过程中模型的平滑收敛。更快的RCNN模型实现了29.19mAP(使用0.5 IoU阈值),而SGG模型实现了R@K=26.1,32.7,36.5,对于测试集上的K=20,50,100。在场景图检测(SGDet)设置中执行SGG模型的训练和评估。
常识知识灌输后的评估。在添加了建议的常识知识注入步骤之后,我们对场景图生成方法进行了重复测试,并实现了R@K=29.89,35.4,39.12,对于测试集上的K=20,50,100,这明显高于R@K如图4所示,在没有常识知识注入步骤的情况下,场景图生成所获得的值。从CSKG集成到场景图中的各种常识知识包括关于场景中对象相对于彼此的空间接近度以及来自视觉基因组知识库的对象之间的物理交互的视觉线索。这有助于减轻在场景图生成期间所做的一些遗漏或错误预测,并提高关系预测的召回率。
比较分析。表2给出了该方法与现有场景图生成方法的详细对比分析。该方法结合了7个不同来源的最新、最大和最多样化的常识知识源,从而获得了更高的召回分数(R@K与现有技术相比,基准视觉基因组数据集上SGG的K=29.89,35.4,39.12(K=20,50,100)(R@K=25.8,33.3,37.8(K=20,50,100)。
定性结果。图5显示了所提出的视觉基因组图像方法的一些定性结果。除了对象及其成对视觉关系之外,常识性的基于知识的场景图还包含关于基本概念的背景事实、关于场景中对象相对于彼此的空间接近度的额外知识、关于对象的空间位置的额外知识以及关于对象的视觉关系的知识,以及对象之间可能的物理交互。有用的背景事实包括图5(a)中的(人,需要,吃)和(食物,用于,吃)。图5(b)中关于空间邻近度的常识关系,如(树、上、街),以及图5(c)中关于对象交互的常识关系(如(人、握、冲浪板),补充了场景图表示。
下游任务。由该方法生成的丰富且异构的场景表示可以显著改善下游视觉推理任务,包括图像字幕、图像生成、VQA、图像检索、视觉故事讲述和多媒体事件处理。
我们使用现有的图像生成方法[18]作为场景图生成的下游任务,以进一步评估所提出的方法。我们在用于训练场景图生成模型的视觉基因组子集上训练图像生成网络。训练后的网络用于从常识知识注入前后的场景图生成图像。从场景图生成图像的结果如图6所示,这表明基于常识的场景图生成更逼真的图像,其中可以更清晰地观察到输入场景图中的语义概念。
5 结论
使用常识知识进行表达和准确的视觉理解是不可避免的,因为它可以通过为更高层次的推理提供必要的信息来补充场景表示。在本文中,我们提出了一种基于常识的场景图生成方法,该方法利用从CSKG中提取的背景知识和相关事实来丰富图像的场景图,CSKG是最新、最大和最多样化的常识知识源。在对基准视觉基因组数据集的实验和比较分析中,该方法实现了较高的召回率(R@K=29.89,35.4,39.12(K=20,50,100)与现有最先进技术相比(R@K=25.8,33.3,37.8(K=20,50,100)。通过将图像生成作为下游任务,我们进一步评估了所提出的方法,并展示了常识知识注入后从场景图生成图像的改进定性结果。有希望的结果描述了丰富和异构的基于常识的场景图表示在提高视觉推理任务的表现力和性能方面的有效性。在未来的工作中,我们将使用整合的常识知识来研究零镜头和少镜头SGG,以减少计算成本和训练数据的需求,并允许SGG模型预测不可见或罕见的对象和谓词类别。我们还将评估该方法在下游推理任务中的有效性,包括多媒体事件处理、图像字幕、视觉问答和图像检索。