利用图像描述与知识图谱增强表示的视觉问答

框架

image.png

阅读问题？

为什么采用FasterBCNN？
问题-图像模块如何设计？
问题-描述模块如何设计？

解答

FasterBCNN？阅读文章应该是Faster R-CNN

内容

表示层

图像：

利用Ｖｉｓｕａｌ　Ｇｅｎｏｍｅ数据集预训练得到Ｆａｓｔｅｒ　Ｒ－ＣＮＮ模型，基于该模型提取图像中的区域对象。最终一张图像可以表示为一个特征矩阵

image.png

Ｙ ← ＦａｓｔｅｒＲＣＮＮ（Ｉ）.
其中，Ｙ＝［ｙ１，ｙ２，...，ｙｎｙ］，ｙｉ∈ ｄｙ，ｎｙ表示区域框数量，ｄｙ表示区域框特征维度。

文本问题：

image.png

图像描述：

image.png

多模态注意力层

image.png

两个模块具有相同的实现方式，区别只在于将图像表示替换为图像描述表示。因此本文只以问题－图像注意力模块为例进行说明

问题－图像注意力模块

首先通过Ｎ层自注意力机制对文本问题进行编码，学习文本问题的自注意力特征，使模型对问题有一定的理解。
图像先经过自注意力机制编码，学习图像自身的特征表示，该特征表示与经过Ｎ层自注意力机制编码的文本问题特征表示作为协同注意力机制的输入，计算得到在文本问题指导下的图像的多模态特征表示。
输出为：编码器端得到的文本问题的自注意力特征表示和解码器端得到的问题导向下的图像特征表示。

来源于《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》提出一种结合bottom-up和top-down的注意力机制，能够在对象和其它显著图像区域的水平上计算注意力。

问题－描述注意力模块

将图像替换为图像描述

输出层

问题引导的图像特征Ｙ
问题自注意力特征Ｘｑ
问题引导并融入知识图谱表示的图像描述特征Ｘｃ
融入知识图谱表示的问题自注意力特征Ｘｋ

以上４部分特征通过线性层映射到统一维度，并且利用加和的融合方式生成最终的向量，然后将该特征向量送入到与答案集合长度相同的分类器当中，分类得到预测结果。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

利用图像描述与知识图谱增强表示的视觉问答

利用图像描述与知识图谱增强表示的视觉问答

框架

阅读问题？

解答

内容

表示层