来源1：“Multi-Modal Knowledge Graph Construction and Application: A Survey”

作者：Xiangru Zhu, Zhixu Li Member, IEEE, Xiaodan Wang, Xueyao Jiang, Penglei Sun, Xuwu Wang, Yanghua Xiao Member, IEEE, Nicholas Jing Yuan Member, IEEE

来源2：https://zhuanlan.zhihu.com/p/484096631

阅读对象：想要快速了解多模态知识图谱相关研究内容的读者，最好具有知识图谱基础知识

常用缩写：知识图谱-KG；多模态知识图谱-MMKG；传统符号模态知识图谱-SKG

本文在来源1和来源2的基础上，进行进一步完善和梳理生成；文章中每一个引文以[索引-年份]形式表示，可以方便了解相关工作的年份；本文中的多模态数据主要考虑图像模态。

知识体系脑图

一、研究背景与意义

知识图谱（KG）本质上是一个以实体/概念作为节点，以它们之间的各种语义关系作为边的大规模语义网络。然而，现有的知识图谱大多是以文本（符号）的形式表示，这削弱了机器描述和理解现实世界的能力。例如，一个人如果没有跟狗直接接触的经历，或者没有看过相关视频或图片，是无法通过“狗”这个符号去准确理解狗的含义的。再比如，如果一个人没有做过“藏手礼”，甚至没有在影视剧或者照片中见过“藏手礼”，他是无法理解藏手礼是一种特殊的姿势（手在大衣襟翼）。对此，为了更好地理解真实的世界，研究者们尝试将符号与其在真实世界中的表示形式（图片、视频、音频等）进行关联。

另一方面，多模态知识的应用在计算机其他领域的需求上也越来越迫切。例如，在关系抽取任务中，附加图像信息会大大提高视觉上明显，但是从纯文本符号层面难以识别的属性和关系的抽取性能。例如屏幕和笔记本电脑的partOf关系，香蕉和黄色或黄绿色的colorOf关系等等；在文本生成任务中，附加图像信息也可以帮助生成包含更加丰富且准确信息的句子。例如，在没有图片赋能的情况下，生成“一个金发的高个子正在演讲”，如果有合适的图片赋能，则会生成“唐纳德特朗普正在发表演讲”。

知识图谱已经成为认知智能的基石，主要以常识库的形式为机器的自然语言理解和可解释推理等应用提供服务，成为人工智能领域不可获取的一部分。随着人工智能技术的发展，传统的单符号模态知识图谱（SKG）已经无法满足当前应用的需求，多模态知识图谱（MMKG）对真实世界具有更加优秀的建模能力，越来越收到研究者们的关注，也得到了快速的发展。下面将主要围绕对MMKG的构建和应用相关技术进展进行系统性的探讨。

二、多模态知识图谱定义

MMKG的定义可以看做是SKG定义的一种扩展，主要根据将非符号模态信息的表示形式，可以分为基于属性表示的多模态知识图谱——A-MMKG和基于实体表示的多模态知识图谱——N-MMKG。即A-MMKG定义中将图片等模态信息表示为符号表示实体的属性信息；N-MMKG定义中将图片等模态信息表示为独立实体，与其他实体建立关系。

图1 A-MMKG（a）和N-MMKG（b）示例

图2 图1中两个MMKG的RDF表示

图1中分别给出了A-MMKG和N-MMKG的示例。图2为图1中MMKG对应的RDF三元组数据。例如，图1-(a)中，法国国旗图片作为法国实体的hasImage属性表示；图1-(b)中，埃菲尔铁塔图片作为实体与巴黎实体具有imageOf关系；图1-(b)中，两个埃菲尔铁塔图片之间具有similar关系；除此之外，还包括如下关系，contain：一个图像实体通过图像的相对位置在视觉上包含另一个图像实体；nearBy：一个图像实体在视觉上靠近图像中的另一个图像实体；sameAs：两个不同的图像实体指的是同一个实体；similar：两个图像实体在视觉上彼此相似。

当然，我们可以看出，图1-(b)中的图谱数据并不准确，第二幅埃菲尔铁塔图片与凯旋门图片之间建立sameAS关系并不合理。（在这里我们的目标是了解MMKG的不同定义形式，并不对知识图谱的质量做要求。）

三、多模态知识图谱的构建

多模态知识图谱构建过程包括，输入：一个SKG和大量的图像模态数据；过程：通过将SKG中实体/概念、事件、事件元素、关系等符号与对应图像数据中的具体视觉对象进行关联；输出：包含符号模态与图片模态数据的MMKG。根据构建过程中SKG和图像模态数据，谁占主导地位，将多模态知识图谱构建过程分类两种策略：给图像打标签策略（从图像到符号，图像占主导地位）和符号定位策略（从符号模态图谱到图像，符号模态图谱占主导地位）。下面分别展开介绍。

3.1 从图像到符号：给图像打标签

CV 社区提出了许多图像标记解决方案，可用于为图像打标签，将图像内容到映射到SKG包含的符号上。知识图谱相关的符号集具体包括：对象、场景、实体、属性、关系、事件，等。具体的图像标记过程如图 3 所示，从图片中检测相关对象（用边界框表示），并赋予相关标签。

图3 图像标记示例: (a) [58-2010]; (b) [59-2017]; (c)[19-2013].

此外，表1列出了NEIL[19-2013]、GAIA[20-2020]、RESIN[21-2021]等基于图片的知识抽取系统，可以用于基于给图片打标签的方式构建MMKG。

表1 基于图片的知识抽取系统

根据标签（符号）类型的不同，可以将MMKG构建任务分为：视觉实体/概念抽取、视觉关系抽取和视觉事件抽取。

3.1.1 视觉实体/概念抽取

视觉实体（或概念）抽取指在检测和定位图像中的目标对象，然后用对应SKG中的文本实体（或概念）标记这些对象。

挑战：这项任务的主要挑战在于如何在没有大规模、细粒度、高质量的标记数据集的情况下学习细粒度抽取模型（fine-grained）。虽然CV中有丰富的标注好的图像数据集，但这些数据集几乎是粗粒度的概念图像，不能满足MMKG构建对细粒度概念/实体的图像标注数据的要求。

现有的视觉实体/概念提取工作大致可分为两类：1) 对象识别方法（object recognition），通过对检测到的对象区域进行分类来标记视觉实体/概念；2) 视觉定位方法（visual grounding），通过将图片对应描述中的单词或短语映射到最相关的区域来标记视觉实体/概念。

1）对象识别方法，在早期的工作中，研究的图像通常很简单，一张图像中只有一个对象，可以通过分类模型进行处理。但是现实生活中的图像比较复杂，包含多个视觉对象（visual objects），需要用多个标签来标记不同的视觉单元。

图像标记过程分为检测阶段和分类阶段。检测阶段需要从输入图像中自动发现所有可能的视觉对象。检测器的训练往往采用基于监督学习的方法，需要大量的标记数据（MSCOCO [62-2014]、Flickr30k[63-2014]、Flick30k Entities[64-2015]、Open Images[65-2020]、等等）。在完成检测阶段工作之后，就需要利用分类器为检测到的视觉对象打具体标签。标签可以是实体级别的（例如，BMW 320），也可以是概念级别的（例如，汽车）

在利用对象识别方法从图片中识别出对应概念/实体的时候，会存在视觉对象大量重复的问题。相同的概念/实体根据拍摄的角度、位置和其姿势的不同，产生大量的视觉对象，因此，如何从大量重复的视觉对象中选出最有代表性的对象与对应的概念/实体建立映射关系成为了需要解决的问题。最常见的解决方法是聚类方法[20-2020]，首先对识别出的视觉图像进行聚类，然后选择每个了类簇的中心视觉对象与对应的概念/实体建立映射关系。

2）视觉定位方法，上述对象识别方法，在训练检测器和分类器的过程中，通常采用有监督的方法，需要大量的标记数据，同时需要提前定义好需要标记的概念/实体集合。由于需要大量人力、物力的投入，对象识别方法再规模上受到的限制。幸运的是，网络上（例如新闻网站）存在大量的图像-描述对数据，可以用于基于弱监督视觉知识的抽取。因此，视觉实体抽取问题被简化为一个视觉定位问题，即通过对图像-描述对进行分析，在图像中准确定位描述涉及的概念/实体，并将其区域标记出来作为对应的视觉对象。

图4 GAIA 中 Soldier 和 Boats 一词的热力图。像素和单词之间的相关性越高，像素的颜色就越暖。

如图4所示，当采用弱监督策略学习图像-描述对中的知识之后，通常利用空间热力图进行表示，提升概念/实体（描述中的文字表示）在图像中对应的像素的温度，根据像素热力值找出对应视觉对象区域。对于描述生成对应图片上的热力图，可以通过基于注意力的方法（attention based）和基于显着性的方法（saliency based）。当前，基于注意力的方法相对于基于显著性的方法更加受欢迎。

尽管视觉定位方法不依赖于标记数据，但实际上仍需要人工干预。一些研究工作试图在训练阶段增加对常识、关系和事件参数的约束，以增加监督信息。在 MMKG的构建相关的工作中[20-2020]，视觉定位方法的精确度低于 70%。通过视觉定位的视觉对象可以是实体（例如 Barack Hussein Obama）、概念（例如地点、汽车、石头）、属性（例如红色、短）。然而，图像和文本描述的语义尺度不一致可能导致不正确的匹配。例如，“部队”可能会映射到几个穿着军装的人，而“乌克兰（国家）”可能会映射到乌克兰国旗。上述两个例子都只是相关，但是不相等

图5 两种弱监督视觉实体提取：(a) 基于注意力的方法[60-2018]和(b)基于显着性的方法[61-2017]。第一种方法选择与给定短语最相关的边界框。第二种方法选择对给定短语最敏感的像素。

图5. 通过多模态预训练语言模型进行弱监督视觉实体提取。该图通过 ViLT 的自注意力机制显示了图像中与描述中给定单词最相关的区域

机遇：随着多模态预训练语言模型强大的表示能力将增强实体和概念的抽取能力。具体多模态预训练语言模型的应用包括：ViLT[50-2021]，CLIP[68-2021]，DINO[70-2021]。

3.1.2 视觉关系抽取

视觉关系抽取指识别图像中检测到的视觉实体（或概念）之间的语义关系（语义关系由对应SKG中的关系类型决定）。

挑战：尽管视觉关系抽取已经在 CV 社区进行了广泛的研究，但是其关系类型还是停留在视觉对象之间的表面视觉关系，例如（人，站立，海滩）。但是，符号模态知识图谱中定义的关系普遍是具有一定语义关系，例如（杰克、配偶、罗斯）。抽取出更加复杂的语义关系成为视觉关系抽取的挑战。

现有的视觉关系抽取工作大致可以分为基于规则的关系抽取（rule based）和基于统计的关系抽取（statistic based）两大类。其他一些工作主要集中在长尾关系和细粒度关系上，下面也会介绍。

1）基于规则的方法，传统的基于规则的方法主要关注一些特定类型的关系，如空间关系[71-2013, 72-2013]和动作关系[74-2010, 75-2011, 76-2014, 77-2015, 78-2017]。这些规则通常由专家预先定义，判别特征通过启发式方法进行评分和选择。

在基于规则的方法中，要检测的关系是根据标签的类型和区域的相对位置来定义的。例如，如果一个对象的边界框总是在另一个对象的边界框内，则它们之间可能存在 PartOf 关系。抽取过程中，检测到的一对对象之间的关系反过来又会对新实例标记的附加约束。例如，“Wheel is a part of Car”表示 Wheel 更有可能出现在Car的边界框中。基于规则的方法提供高度准确的视觉关系，但它们依赖于大量的人工工作。所以在大规模MMKG建设中是不实用的。

2）基于统计的方法，基于统计的方法将检测到的对象的视觉特征、空间特征和统计等特征编码为分布式向量，并通过分类模型预测给定对象之间的关系。与基于规则的方法相比，基于统计的方法能够检测到训练集中出现的所有关系类型。

一些工作证明谓词在很大程度上依赖于主客体的类别，但主客体不依赖于谓词，主客体之间也没有依赖关系。例如，在三元组（人（主体）、骑（谓词）、大象（客体））中，人和大象表示关系可能是骑而不是穿。因此，一些研究工作中尝试将上述依赖关系引入关系抽取过程[79-2018, 80-2016, 81-2017, 82-2017]。图像中检测到的视觉对象和关系可以表示为图，利用图结构对关系建模，能够从其关联节点和边中获得信息扩展，从而提升视觉对象关系抽取的精度[83-2017, 84-2017]。

3）长尾关系和细粒度关系提取，尽管基于统计的方法能够检测一般关系，但很难检测长尾关系。其主要原因是样本偏差，从具有偏差的数据集中训练得到的模型更加倾向于预测多样本关系类型，导致长尾关系类型的预测精度偏低。对于长尾关系预测精度低的问题，也开展了一些研究[85-2019, 86-2020, 87-2020, 88-2019]。

细粒度关系也可以看做是一种长尾关系,现有的从特征融合角度对长尾关系问题的研究未能很好地区分细粒度的关系。例如，模型倾向于预测成“on”而不是细粒度的关系“sit on/walk on/lay on”。对此，[89-2020]展开了研究。

在细粒度关系检测问题中，人与对象的交互/动作关系检测的难度会更大一些，因为一个人的动作是由身体的许多组成部分决定的。例如，描述(person, play, violin) 和 (person, hold, violin) 的图像之间存在差别是非常细微的。对此，研究者们也展开了如下工作[73-2010, 74-2010, 75-2011, 90-2019]

机遇1：视觉关系知识判断，许多从图像中提取的视觉三元组只描述了图像的场景，其质量还达不到视觉知识的标准。因此，如何从大量的视觉三元组中准确识别视觉关系知识，过滤视觉关系场景，提升视觉关系质量成为新的机遇和挑战。

机遇2：基于推理的关系检测，对于包含一个人和一个足球的图像进行分析可以得到如下三个视觉关系：(head, look at, sth)、(arm, swing, -)、(foot, kick, sth)，则可以通过推理得到(person, kick, football)。不幸的是，这个数据集是手动构建的。我们需要自动总结关系检测的推理链。

3.1.3 视觉事件提取

一个事件通常被定义为参数之间的动态交互，包括一个触发词和几个参数及其相应的参数角色。触发词是表示事件发生的动词或名词，参数角色是指事件与时间、人、地点等参数之间的语义关系，参数是实体提及、概念或属性值。传统的事件提取任务旨在通过触发词预测事件类型，然后根据预定义的事件模式，进一步识别事件对应的参数。同样，视觉事件提取也可以分为两个子任务：1）视觉事件类型预测； 2）定位和识别视觉对象作为事件参数[21-2021, 67-2020, 92-2017, 93-2021]

挑战1：视觉事件抽取需要提前定义好每个事件的模式，即事件类型以及事件类型对应的参数类型。这个工作需要大量专家的人工干预，因此，很难覆盖全面。对此，如何自动挖掘视觉事件模式成为新的挑战

挑战2：如何从图像或视频中提取视觉事件的视觉参数。

下面从视觉事件模式挖掘和视觉事件参数抽取两个任务展开说明。

1）视觉事件模式挖掘，例如，事件 Clipping的模式可以用事件的参数类型列表（Agent、Source、Tool、Item、Place）表示。其在剪羊毛的图像中它们分别是 Man、Sheep、Shears、Wool、Field。这些模式往往需要专家通过人工总结得到。但是，对于大规模的视觉事件识别任务，很难通过人工总结得到完整的事件模式，因此，需要自动挖掘潜在的事件模式。

互联网上大量的图片-描述对数据让自动挖掘视觉事件模式成为可能。视觉事件模式的发现可以转换成关联规则挖掘算法中频繁项集的发现任务。首先，利用视觉定位（visual grounding）等技术识别出图片中包含的所有视觉对象。然后，通过对图片描述进行分析，抽取相关事件触发词，确定事件类型。最后，通过文本描述的分析结果，将相同事件类型对应的图片放在一起，找出经常共现的视觉对象集合，生成对应的视觉事件模式[92-2017, 97-2016]。

利用自动挖掘的视觉事件模式，不仅可以补充新的事件模式，还可以矫正现有错误事件模式。

2）视觉事件参数抽取，视觉事件参数抽取任务可以看作是视觉对象集合识别任务，其中，识别出的视觉对象之间受到事件与参数类型之间的关系约束。通过弱监督策略分析图片-描述对数据得到的视觉事件，可以通过从描述文本中分析得到的事件进行交叉验证，或通过从描述文本分析中语义信息的引入，提升视觉事件抽取性能[21-2021, 67-2020]。

相对于对图片数据，视频数据可能更加适合视觉事件抽取任务，因为有些事件的完整参数可能会分到视频的多个视频帧中，即一个图片中可能无法表示完整的事件参数[93-2021]。

机遇1：从长视频中顺序提取多个事件。

机遇2：具有多个子事件的视觉事件提取。例如，制作咖啡包括：清洁咖啡机、倒入咖啡豆、启动咖啡机等三个步骤，每个步骤为一个事件。连续的步骤需要通过步骤的时间线来提取和列出，这是目前的方法难以解决的。

3.2 从符号到图像：符号定位

符号定位是指对SKG中的概念、实体、属性、关系、事件等符号找到适当的多模态数据项（例如图像），并进行关联的过程。与图像标记方法相比，符号定位方法在MMKG构建中应用更为广泛。表2中列出了利用符号定位策略构建的MMKG。

表2 基于符号到图像策略构建的MMKG[22-2017， 23-2017， 24-2019， 25-2020， 26-2020]

3.2.1 实体定位（entity grounding）

实体定位旨在将符号模态知识图谱中的文本实体定位到其相应的多模态数据，例如图像、视频和音频[12-1990]。当前的研究工作主要研究定位到图像数据。

挑战1：如何以低成本地为实体找到足够多的高质量图像？

挑战2：如何从大量噪声中选择最匹配实体的图像？

根据图像数据的来源，可以分为基于在线百科全书（如维基百科）和基于网络搜索引擎的实体定位方法。

1) 基于在线百科全书，在维基百科中，一篇文章通常用图像和其他多模态数据来描述一个实体。 Wikipedia 和 DBpedia 提供了许多工具（例如 Wikimedia Commons ）来帮助DBpedia 中的实体与 Wikipedia 中的相应图像或其他模态数据之间建立连接。研究人员很容易使用像维基百科这样的在线百科全书来构建大规模 MMKG 的初级版本。然而，基于在线百科全书的方法有三个缺点：

第一，每个实体对应的图像数量是有限的。维基百科中每个实体对应的图像数量平均为 1.16。

第二，维基百科中的许多图像与其对应的实体在含义上只是相关，但不相同，因此，与相关的图片建立关联将导致语义漂移（semantic drift）。例如，维基百科中“北京动物园”实体对应的图片中存在动物、建筑、牌匾、雕刻等多张图片，“北京动物园”实体与动物图片建立联系是不合理的。

第三，基于维基百科构建的MMKG的覆盖率仍有待提高。英文维基百科有600万个实体（文章），这是从英文维基百科构建的MMKG的规模上线。根据调研，近 80%的英文维基百科文章没有对应的图像，其中只有 8.6 %有超过 2 个图像。

2）基于搜索引擎，为了提高 MMKG 的覆盖率，提出了基于搜索引擎的解决方案。通过查询实体名称从搜索引擎的搜索结果中发现对应图像。一般来说，排名靠前的结果图像很有可能是实体需要关联的图像。与基于在线维基百科的解决方案相比，基于搜索引擎的方案可以显著提升MMKG的覆盖率。然而，基于搜索引擎的方法很容易将错误的事实引入MMKG。众所周知，搜索引擎结果中惨咋着大量的错误结果。另一个原因是指定恰当的搜索关键字并非易事。例如，想要查询Commercial Bank对应的图像的时候，关键词Bank是不够准确的，因为它还有可能返回River Bank相关图像。因此，已经有很多关于清理候选图像的研究工作。也可以用同义词集[99-2009]或实体类型[24-2019]来扩展关键词以消除歧义。在为实体选择最佳图像时，多样性也是不可忽视的问题。训练图像多样性检索模型以去除冗余的相似图像，使图像尽可能多样化[25-2020]。

由于在构建过程中符号实体与视觉对象在特征空间上解耦，基于上述实体定位策略构建的MMKG具有区分视觉相似实体的能力，如图6所示，也使得构建面向领域的细粒度MMKG成为可能。

图6 (a) 相似的视觉实体：娜塔莉·波特曼和凯拉·奈特莉；(b) 类似的视觉概念：消防员和垃圾收集员

与基于百科全书的方法相比，基于搜索引擎的方法覆盖率高，但质量较差。因此，经常将这两种方法结合使用，达到取长补短的效果[25-2020, 100-2019]。

机遇1：一个符号实体有可能找到多个关联的图像，每个图像只是该实体的一个方面。例如，一个人关联的图像可以是不同年龄的图像、生活照片、事件照片、单人照片和家庭照片。如何确定最典型的图像集有待解决？

机遇2：现实世界的实体是多面的，一个实体在不同的上下文环境下，对应的图像应该是不同的。即，一个实体应该关联多个图像，每个图像都对应这个实体先不同上下文环境的表示。对此，催生了一个新的任务——实体多定位。假设每个符号实体已经有关联的图像集（图像池），实体多定位任务就是在给定一个符号实体以及对应上下文的情况下，从关联的图像池中选出最合适的图像的过程。例如，美国第 45 任和现任总统唐纳德·特朗普 (Donald Trump) 拥有许多可以从网络上收集的不同图像。如图 7 所示，任何单个图像都不适用于所有不同的上下文。然而，将实体的不同方面映射到不同上下文中最相关的图像并非易事。首先，实体的图像池很难建立，因为图像池的完整性无法保证，在某些上下文中很容易漏掉一些相关的图像。其次，为特定上下文的实体消歧图像具有挑战性，因为上下文通常是嘈杂的并且包含稀疏信息，并且需要更多的背景信息来指导语义信息的获取。最后，作为一项新任务，标记数据的缺乏是一个大问题。

图7 关于特朗普的句子和图片。 (a) 特朗普早年生活的照片，(b) 作为商人的特朗普，(c) 作为政治家的特朗普，以及 (d) 作为美国总统的特朗普。显然，(a) 与 S1 更相关，(b) 与 S2 更相关，(c) 与 S3 更相关，(d) 与 S4 更相关。

3.2.2 概念定位（concept grounding）

概念定位旨在为视觉概念找到具有代表性的、有区分度的多样化的图像。

挑战1：并非所有的概念都可以可视化展示的。例如，“非宗教主义者”这个概念就很难找到对应的图像。因此，如何区分可视化概念（visualizable concept）和非可视化概念（non-visualizable concept）成为一个难点。

挑战2：如何从一组相关图像中找到一个可视化概念的代表性图像？可视化概念的图像可能非常多样化。例如，一提到公主，人们往往会想到几种不同的形象，迪士尼公主、历史电影中的古代公主或新闻中的现代公主。因此，我们必须考虑图像的多样性。

1）可视化概念判断，该任务旨在判断一个概念是否可视化展示，研究人员发现对于Person子树下的概念集合中只有 12.8 %可以被可视化[101-2020]。研究者们也展开了部分研究工作，有的直接将WordNet中Abstract节点下的所有概念进行删除，因为他们假设抽象的概念普遍不具备可视化展示特点[102-2008]，有的研究者通过比较一个概念在Google图像搜索的返回结果是否大于Google Web搜索返回结果，判断一个概念是否具有可视化展示特点[103-2017]。

2) 代表性和多样性图像选择，对于一个概念发现的候选图像集合，我们需要对其集合进行进一步排序，选出同时具有代表性和多样性的图片进行关联。代表性考虑的概念与图像之间的语义相关性，多样性考虑的是关联的多个图片应该尽量代表不同的主题，避免主题的冗余。

对于代表性图像的选择，通常采用聚类的方法，例如 K-means、谱聚类等。类簇内的方差越小，聚类中图像的得分越高，认为更具有代表性。图像的描述也可以用来评估图像在语义层面的代表性和区分性。描述将提供图像没有包含的语义信息[103-2017, 106-2014, 107-2021]。例如，一张冰岛风景照片和一张英国风景的照片从视觉角度可能非常相似，可以通过参考对应的描述文本区分它们的概念差异。有的研究者利用最大最小方法同时对代表性和多样性进行建模[108-2009, 109-2010]

也可以通过将候选图片集合表示成图（每个图像为节点，图像相似度为图像之间边的权重），再利用图搜索技术找到具有代表性的图片[103-2017, 110-2009, 111-2011]。

这些研究集中在文本图像检索领域，很少有与多模态知识图谱相关的研究。来自互联网的关于性别、种族、肤色和年龄的概念图像的多样性仍然存在许多未解决的偏见，现在这个问题在很大程度上依赖于众包。

机遇1：抽象概念定位，以往的概念定位任务通常认为抽象概念不具备可视化展示特性，经常在概念定位过程中被忽略，但抽象概念也可以找到对应的图像的。例如，“幸福”通常与“微笑”关联，而“愤怒”通常与“生气的脸”关联。例如，Beauty 的图像与以下词集关联：woman/girl、water/beach/ocean、flower/rose、sky//cloud/sunset。类似地，Love 的图像与以下词集关联：baby/cute/newborn、dog/pet、heart/red/oalentine、beach/sea/couple、sky/cloud/sunset、flower/rose[112-2008]。

机遇2：动名词概念定位 动名词是一种特殊的名词，可以转化为动词，如singing -> sing。[76-2014]利用众包完成了许多动名词的图像定位，例如arguing with, wrestling with以及 dancing with。

机遇3：通过实体定位完成非可视化概念的定位，如果一个概念是不具备可视化展示特性，但该概念的实体可以被可视化，则该概念也可以通过其实体关联图像，具体通过选择当前概念最具有代表性的实体对应图像作为该概念的图像进行关联。如表 3 所示，使用爱因斯坦的照片作为物理学家概念的图像是可以被接受的，因为当提到物理学家时，大多数人都会想到爱因斯坦。但是，仍然有很多未解决的问题： (a) 一般来说，不同的人对一个概念有不同的典型实体，因此我们应该在概念定位上解决这种主观性。(b) 我们应该选择几个典型实体图像来呈现这个概念。如何确定这个实体集合？ (c) 我们是否需要从多个实体图像中抽象出共同的视觉特征？

表3 可视化概念和非可视化概念的概念定位示例。由于爱因斯坦是物理学家的典型实体，因此非可视化的概念——物理学家可以与爱因斯坦的照片进行关联。

3.2.3 关系定位

关系定位是从图像数据语料库或互联网中找到可以符号模态知识图谱中特定关系的图像。输入可以是这个关系的一个或多个三元组（subject，relation，object），输出是这个关系最具代表性的图像。

挑战：当我们将三元组作为输入试图定位图像时，排名靠前的图像通常与三元组的subject和object更相关，而与relation本身关联较弱。如何找到能够反映输入三元组中relation的图像成为了较大的挑战？

现有的关系定位研究主要集中在空间关系（例如，left of、on）或动作关系（ride、eat）。具体采用文本-图像匹配和图匹配方法。

1）文本-图像匹配，通常将文本和图像映射到相同的语义嵌入空间，得到统一的向量形式表示，然后通过计算文本向量和图像向量的相似度得分找到最匹配的图像。跨模态表示通常由注意力机制融合，因此全局统一表示的缺点是缺乏显式细粒度关系的语义[35-2019]。除了上述基于分布式统一表示的方法之外，一种更方便的方法是基于图像描述的检索，但是其具有一个明显的缺点就是，它并没有用到图像信息。为了表示对象之间的明确关系，许多研究集中在考虑图像局部结构的图像编码器上。最终的图像表示通过融合全局视觉特征、局部结构特征和文本对齐嵌入三部分信息得到[78-2017, 114-2018, 115-2020]。多模态预训练语言模型是新的图像编码方法，它考虑对象（实体或概念）和三元组的。

2）图匹配，文本-图像匹配将文本和图像表示成统一的向量进行匹配，而图匹配方法先将匹配对象转换成图结构，再去匹配可以提升过程的可解释性。一种更方便的方法是基于描述的检索，如 Internet 上的搜索引擎，匹配实体和关系包含的tokens与描述之间的匹配关系。基于描述的检索的缺点是没有使用视觉特征进行匹配。Richpedida[25-2020] 提出了一个非常强的假设，即如果 Wikipedia 描述中的两个实体之间存在预定义的关系（例如 nearBy 和 contains），则两个实体对应的视觉实体之间也存在相同的关系。但实际上，这两个对象很有可能不会同时出现在一张图像中，就算它们同时出现在一张图中，也很有可能不存在对应的关系。

图8 基于图匹配方法的关系定位[116]

如图8所示，如果我们将文本查询和候选图像均表示为图，则关系定位任务变成了图匹配任务。将图像中的视觉对象表示为节点，对象之间的关系表示为边，将图像转换为图；通过依存句法分析对输入文本进行分析，得到对应的依存分析结果——依存图。一个简单的解决方案是只匹配两个图中的对象和共现关系而不预测关系类型[113-2015]，即假设如果两个实体之间存在关系，则该关系被认为是匹配的，这也是一个强假设。显然，关系预测模块是必不可少的。 [116-2020]用GCN分别表示成两个场景图（scene graph），其中对象自己进行更新，关系节点通过聚集其邻居节点的信息进行更新。预测时，分别通过对象节点匹配和关系节点匹配两种形式计算两个图的相似度。

机遇：现有研究主要集中在空间关系（spatial）和动作关系（action）的定位上，这些关系可以在图像中直观地观察到。但是，多数关系例如isA, Occupation, Team和Spouse在图像中可能并不明显。这些关系通常缺乏训练数据，因此很难用上述两种解决方案训练模型来检索图像。

四、应用

在对 MMKG 构建进行系统回顾之后，本节探讨如何将 MMKG 的具体应用。

4.1 MMKG 内部应用（In-MMKG）

In-MMKG 应用是指在 MMKG 范围内执行的任务，包括链接预测（link prediction）、三元组分类（triple classification）、实体分类（entity classification）和实体对齐（entity alignment）等。In-MMKG应用假设其中实体、概念和关系等已经完成分布式表示。因此，在介绍 in-MMKG 应用之前，我们简要介绍一下 MMKG 中知识的分布式表示学习，也称为 MMKG 嵌入。基本上，MMKG 嵌入模型是从传统的知识图谱的嵌入模型发展而来的。例如，即基于距离的模型（distance-based），即假设一个三元组的头实体和尾实体在投影空间上应该是接近的；基于翻译的模型（translation-based），即TransE及其变体。

在建模MMKG的时候还需要考虑如下两个问题：如何有效地编码图像中包含的视觉知识和信息，以及如何融合不同模态的知识。 1）视觉编码器（vision encoder）。随着深度学习的发展，利用卷积神经网络的隐含层特征向量编码图像成为了当前主要手段[138-2018, 139-2017, 140-?]，而CV 中许多现成的显式图像信息编码技术，例如灰度直方图描述符 (GHD)、定向梯度直方图描述符 ( HOG），颜色布局描述符（CLD）则很难在 MMKG 表示中使用。 2）知识融合（knowledge fusion）[139-2017, 140-?]。为了融合多模态的知识嵌入，考虑了各种融合方式，包括简单连接、平均多模态嵌入以及基于归一化或加权的 SVD 和 PCA。

4.1.1 链接预测

MMKG中的链接预测指在(h, r, t)三元组中的一个实体或关系缺失时，自动补全缺失的部分，形成完整三元组的过程[134-2013, 136-2015, 138-2018, 141-2016, 142-2015, 143-2013, 144-2016]。与传统SKG的连接预测任务相比，MMKGs 中的实体和关系的附加图像可以提供额外的视觉信息，以提高嵌入表示质量。例如，一个人的图像可能会丰富这个人的年龄、职业等信息。

IMAGEgraph[23-2017] 提出将看不见的图像和多关系图像检索之间的关系预测表达为视觉关系问询，以便可以利用这些问询来补全 MMKG。与传统方式相比，IMAGEgraph 在关系和头/尾实体预测任务上表现更好，并且能够推广到看不见的图像，以回答一些零样本的视觉关系问询。例如，给定一个不属于知识图谱的全新实体的图像，这种方法可以确定它与另一个给定图像的关系，尽管我们不知道其对应的知识图谱实体。

MMKG[24-2019]构建了三个数据集来预测实体之间的多关系链接，所有实体都与数字和视觉数据相关联。但是，它只专注于sameAs这个关系的链接预测任务并回答此类查询以补全 MMKG。三个相当异构的知识使 MMKG 成为衡量多关系链接预测方法性能的重要基准，并验证了不同模态对于sameAs的链接预测任务是互补的假设。

4.1.2 三元组分类

三元组分类指判断一个给定的三元组是否为正确，这也可以看作是一种知识图谱补全任务。[143-2013, 144-2016]

4.1.3 实体分类

实体分类指将一个实体分类为不同的语义类别，即 MMKG 中不同粒度的概念。实体分类也可以看成是一种特殊的链接预测任务，输入为（entity, IsA, ?)，其中关系类型固定为IsA，预测实体对应的概念。

实体分类问题在传统的SKG上进行了研究，也积累了不少模型可以在 MMKGs 中使用。但是，它们没有充分利用 MMKG 中实体和概念的丰富多模态数据。对此，[145-2020]致力于从几种不同类型的模态中学习实体和概念的嵌入，然后将它们编码到联合表示空间。

4.1.4 实体对齐

实体对齐在将多个MMKG进行合并的时候，找出不同MMKG中具有相同含义的实体的过程。其目标是为了将对齐的实体合并，消除合并图谱中存在的冗余。其核心思想是学习每个实体在MMKG中的分布式表示，然后，通过计算两个实体的的相似度判断它们是否可以被对齐。与传统SKG不同，MMKG中包含了丰富的多模态信息，如何学习包含丰富模态信息的实体表示成为了MMKG实体对齐重点解决的问题[146-2021, 147-2020]。

有些研究者另辟蹊径，采用Product of Experts模型[24-2019]，通过回答（h?, sameAs, t）或（h, sameAs, t？）两种形式的查询完成实体对齐任务。其中，h和t分别是来自不同MMKG的候选实体对。

4.2 MMKG下游应用（Out-of-MMKG）

Out-of-MMKG 应用指基于 MMKG的下游应用。下面从基于MMKG的命名实体识别（entity recognition）和实体链接（entity linking）、视觉问答（visual question answing， VQA）、图文匹配（image-text matching）、多模态生成（multi-model generation）和多模态推荐系统（multi-model recommender system）等几个应用为例进行介绍。本文没有对这些任务的所有解决方案提供系统评价，而是主要关注介绍如何使用 MMKG。

4.2.1 多模态实体识别与链接

多模态实体识别(MNER) 旨在检测带有图像的文本中的实体，其中图像可以为实体识别提供必要的补充信息。 MMKG 通过提供视觉特征使得 MNER 附带图像信息用于实体识别。例如，使用 MMKG 中图像的背景知识来帮助捕获图像的深层特征，以避免来自浅层特征的错误[57-2018, 117-2018, 149-2021]。

多模式实体链接 (MEL)，指对于带有附加图像的文本中，通过结合文本和视觉信息将文本中的实体链接到知识库中的实体[150-2020, 151-2018]。

4.2.2 视觉问答

视觉问答（VQA）是一项具有挑战性的任务，不仅需要对问题进行准确的语义解析，还需要深入理解给定图像中不同对象和场景之间的相关性。最近发布的VQA任务数据集（GQA[119-2019]、OK-VQA[56-2019]、KVQA[121-2019]），普遍要求结合视觉推理完成。OK-VQA任务中，人们可以方便地结合知识库中多模态信息，对问题进行解答。例如，在“哪个美国总统与这里看到的毛绒玩具有关？”的问题中，如果图像中的毛绒玩具被检测为“泰迪熊”，则通过 KG 推理出的答案将是“西奥多·罗斯福”，因为他常常被称为“泰迪罗斯福”，泰迪熊以他的名字命名。

抽取视觉概念之间的关系和理解问题中的语义信息是 VQA 的两个关键问题。然而，如果不结合更多各种模态的知识，它就无法通过语义解析和匹配对图像-问题-答案三元组进行推理，并且很难推广到更复杂的情况[122-2015]。MMKG 有助于解决上述问题并增强答案的可解释性。首先，MMKG 提供某个图像中包含的实体及实体间关系信息，提供更深入的视觉内容理解。其次，MMKG 中的结构化符号知识在进行推理和最终答案预测上提供数据支持。[152-2021]结合了多种KG去完成VQA任务，具体包括用于提供分类和常识知识的SKG（DBpedia[6-2007], ConceptNet[2-2004], hasPartKB[153-2020]）和一个MMKG（Visual Genome[59-2017]）。除此之外，MMKG中丰富的语义信息可以从可解释性和通用性方面完善答案[154-2020]。

4.2.3 图-文匹配

图像-文本匹配是许多与文本和图像相关应用的一项基本任务，例如图像-文本和文本-图像检索，其核心目标是计算图像和文本对之间的语义相似度[114-2018, 155-2015, 156-2018, 157-2019, 158-2020]。

图像-文本匹配通常是通过将文本和图像映射到一个语义空间中，计算不同模态数据在同一语义空间中的向量表示的相似度实现。一种通用的方法是利用多标签检测模块来抽取语义概念，然后将这些概念与图像的全局上下文融合[114-2018, 159-2018, 160-2019]。然而，预训练的基于检测的模型很难找到长尾概念，导致性能不佳。对于数据偏差导致的长尾问题，可以利用MMKG中丰富的多模态数据对长尾概念用图像等模态扩展。此外，MMKG还可以帮助构建场景图（scene graph），引入视觉对象之间的关系信息，进一步增强图像表示能力。例如，可以提取在 MMKG 的三元组中经常共现的实体对（房屋-窗户对和树-树叶对），以增强图像的表示，从而为图像的语义理解提供丰富的上下文信息，并提升图像-文本匹配的性能[16-2019]。此外，考虑到图像-文本匹配任务中的一个关键步骤是在不同模态之间对齐局部和全局表示。对此，[161-2020]尝试将MMKG中的关系引入，以表示更高语义级别的图像和文本。这种图结构信息更好地增强了多模态数据的推理能力和可解释性。 MMKG 还通过学习更统一的多模态表示来帮助跨模态对齐。

4.2.4 多模态生成任务

当前基于MMKG的多模态生成任务主要包括，图像标记（image tagging）、图像描述（image caption）、视觉叙事（visual storytelling）等。

1）图像标记，传统的图像标记方法很容易受到标签数量偏差以及标记质量的限制。通过将 MMKG 中的概念知识嵌入到图像中，可以极大地改善图像的表示，从而提高图像标记的性能[162-2019]。[162-2019]构建一个名为 Visio-Textual Knowledge Base (VTKB) 的MMKG，其中包括文本和视觉信息以及它们之间的关系。基于VTKB，提出了一种新的图像标记框架，将视觉信息结合到 VTKB 中，以帮助消除概念歧义并将它们与图像更好地联系起来。

2）图像描述，主流的基于统计的图像描述模型有两个缺点：首先，它们严重依赖目标检测器的性能（先检测视觉对象，再生成对应描述内容）。其次，训练集中没有出现的对象总是给他们带来很大的挑战。在图像-描述并行语料库上训练的模型总是无法描述之前未见过的对象和概念。

幸运的是，MMKG 可以通过以下方式帮助缓解图像描述上述两个问题：1）[163-2019]提出利用 MMKG 进行关系推理，从而产生更准确和合理的描述。2) MMKG的符号关联知识可以帮助理解训练集中没有出现的实体/概念[55-2017]。具体来说，符号知识提供了关于没有被训练到的对象的符号信息，并与已知对象之间建立语义关系。

一个更复杂的任务为实体感知图像描述，它要求在以文本形式给定背景知识的情况，对图像中的对象给出更加丰富的描述内容。尽管一些研究将背景文本知识利用细粒度的注意力机制编码近模型中，但它们忽略了实体/概念与图像中视觉线索之间的关联，因此在某些复杂场景下表现不佳。然而，MMKG可以捕获上下文中的实体和图像中的对象之间的细粒度关系，以便生成更准确实体和更多相关事件的描述[18-2021]。

3）视觉叙事，视觉叙事可以看做是升级版的图像描述任务，需要根据许多连续的图像来讲述故事。该任务不仅需要分析图像与图像之间的关联，还需要分析相关图像中视觉对象之间的关系。传统的视觉叙事方法通常将其抽象为顺序图像描述问题，忽略图像之间的关联关系，导致产生单调的故事。此外，上述方法生成的描述词汇和知识受限于单个训练数据集。为了解决这些问题，[164-2020]在蒸馏-浓缩-生成三阶段框架中引入MMKG。首先，从每个图像中提取一组单词，然后，将两个连续图像中的所有单词配对以查询Visual Genome的对象关系和OpenIE的术语关系，以获取所有可能的元组并生成丰富的故事。最后，生成最优的词语组合输入到故事生成模块，执行故事生成。通过这种模仿人类如何叙述故事的方式，知识图谱中关系的使用提供了图像之间强大的逻辑推理，使生成的故事更加流畅。

4.2.5 多模态推荐系统

推荐系统旨在通过对历史数据的分析来推荐用户可能喜欢/购买的商品。在此过程中需要平衡多种因素，例如准确性、新颖性、分散性和稳定性[165-2013]。多模态推荐系统指在推荐场景中涉及图像和文本等多模态数据，需要联合利用不同模态的信息，以提升推荐性能。

近年来已经证明，MMKG可以极大地增强多模态推荐系统[166-2009]。一些方法通过利用外部 MMKG 来获得具有丰富语义的项目表示。跨不同模态整合 MMKG 的信息可以帮助解决基于协作过滤 (CF) 的推荐策略中长期存在的冷启动问题[167-2016]。其他一些方法找到了利用 MMKG 获得更个性化和可解释的推荐的其他方法[131-2020, 168-2021]。

五、未解决的问题

本节讨论了一些关于 MMKG 构建和应用的开放问题，留待未来研究。

5.1 复杂符号知识定位

除了实体、概念和关系等的定位之外，一些下游应用需要对更加复杂的符号知识定位，这些知识由多个相互之间具有密切语义关系的关系事实组成。这些多重关系事实可能是知识图谱中的一条路径或一个子图。例如，对于包含特朗普的妻子、女儿、孙子等的子图，合适的图像定位可能是特朗普的全家福。

多重关系定位具有挑战性，因为它涉及多个关系的定位，并且这些多重定位通常以复杂的方式相互交织。我们必须找到充分体现复合语义关系的图像。在许多情况下，复合语义只是隐式表达的，并且可能随着时间而改变。

5.2 质量控制

一般来说，我们依靠数据驱动的方法来构建大规模的 MMKG。从大数据中自动获取的 MMKG 不可避免地会遇到质量问题，即 MMKG 可能包含错误、缺失事实或过时的事实。例如，在基于搜索行为数据的多模态知识获取中，很容易为长尾实体关联错误的图像，因为该实体可能在 Web 上没有图像，因此任何点击的图像都会误导错误定位。

表4 MMKG 中的质量问题示例

除了在传统知识图谱中广泛讨论和研究的准确性、完整性、一致性和新颖度等常见质量问题外，多模态知识图谱还存在一些与图像有关的特殊质量问题。第一，当两个实体彼此密切相关时，两个实体的图像很容易被混淆。见表 4 中的第一个例子，Pluvianus aegyptius是一种与鳄鱼共生的鸟类，因此我们在搜索时可能总是得到鳄鱼和鸟类的照片。第二，更加有名的实体的图像很容易出现在其密切相关实体的定位结果中。见表4中的第二个例子，《The Wandering Earth》是中国著名科幻作家刘慈欣写的。在搜索这本书的过程中，我们总能找到另一本刘慈欣更著名的书的图片，名为《The dark forest》。第三，一些抽象概念的视觉特征不够清晰。比如抽象名词arrogance的视觉特征是不固定的，所以我们总能得到一些完全不相关的图片。为了解决上述问题，可能需要更多的视觉分析和背景信息来指导点击率和文本信息，以避免这种误导。

5.3 效率

在构建大规模KG，效率始终是一个不可忽视的问题，对于MMKG的构建，效率问题更为突出，因为还需要额外考虑处理多媒体数据复杂性。例如，NEIL[19-2013]耗费大约350K的CPU小时去收集 2273个对象的400K个视觉实例，而在一个典型的KG 中，我们需要处理数十亿个实例。因此，构建MMKG的现有解决方案的执行过程将受到极大挑战。如果定位目标是视频数据，则可执行性难度可能会被放大。

除了MMKG的构建，MMKG的在线应用也需要认真解决效率问题，因为基于MMKG应用普遍要求实时性。效率对于构建基于MMKG的在线应用至关重要。

六，结论

我们第一次对包含文本和图像模态MMKG构建和应用方面现有工作进行了系统全面的总结，梳理了主流MMKG涉及的概念和知识，分析了MMKG构建和应用中不同解决方案的优势和劣势。通过对现有研究工作的分析和总结，我们给出了在MMKG建设和应用任务中存在的挑战和未来可能的机遇。

多模态知识图谱-综述