框架
阅读问题?
为什么采用FasterBCNN?
问题-图像模块如何设计?
问题-描述模块如何设计?
解答
FasterBCNN?阅读文章应该是Faster R-CNN
内容
表示层
图像:
利 用 Visual Genome数 据 集 预训练得到 Faster R-CNN 模 型,基 于 该 模 型 提 取图像中的区域对象。最终一张图像可以表示 为一 个特征矩阵Y ← FasterRCNN(I).
其 中,Y=[y1,y2,...,yny ],yi∈ dy ,ny 表示区域 框 数 量 ,dy 表示区域框特征维度。
文本问题:
图像描述:
多模态注意力层
两个模块具有相同的实现方式, 区别只在于将图像表示替换为图像 描述表示。因此 本 文 只 以 问 题 - 图 像 注 意 力 模 块 为 例 进 行 说 明
问题-图像注意力模 块
首先通过 N 层自 注 意 力 机 制 对 文 本 问 题 进 行 编 码,学 习文本问题的自注意力特征,使模型对问题有 一定的理解。
图像先经过 自 注 意 力 机 制 编 码,学 习 图 像 自身的特征 表 示,该 特 征 表 示 与 经 过 N 层 自 注 意力机制编码的文本问题特征表示作为协同注意力机 制 的 输 入 ,计算得到在文本问题指导下的图像的多 模态特征表示。
输出 为:编码器端得到的文本问题的 自注意力特征表示和解码器端得到的问题导向下的图像特征表示。
来源于《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》提出一种结合bottom-up和top-down的注意力机制,能够在对象和其它显著图像区域的水平上计算注意力。
问题-描述注意力模块
将 图 像 替 换 为 图 像 描 述
输 出 层
- 问 题 引导的图像特征Y
- 问题自注意力特征Xq
- 问题引导并融入知识图谱表示的图像描述特征 Xc
- 融入知识图谱表示的问题自注意力特 征 Xk
以上4部分特征通过线性层映射到 统 一 维 度 ,并且利用加和的融合方式生成最终的向 量 ,然后将该特征向量送入到与答案集合长度相同 的 分 类 器 当 中 ,分 类 得 到 预 测 结 果 。