跨媒体的知识抽取可以利用视觉、听觉等多模态已标注信息来辅助文本标注缺乏下的知识抽取
又可以作为类似跨语言知识抽取的另一维度为实体间未知关系的挖掘及已标注关系的消歧提供互补信息。
(1)视觉实体和关系的抽取:相对于文本中的实体和关系相对确定性,视觉实体和关系呈现出尺度、表型、空间关系等多样性,需要通过鲁棒语义模型的构建实现视觉实体和关系的抽取,从而将视觉局部区域映射到三元组上
(2)视觉事件的自然语言描述:针对图像/视频,基于人工智能理论自动生成一段语法和逻辑合理的视觉内容自然语言描述,从而实现语义丰富的视觉信息到抽象的语义事件描述的映射;
(3)跨媒体信息融合:跨媒体信息在知识载体上存在差异,通过多模态信息在相同粒度和语义上的对齐,进一步实现特征和语义层面的融合,可以综合利用多模态信息,来辅助后续知识表示、建模、计算等关键技术,并形成面向跨媒体知识图谱构建的创新理论体系和关键技术。