利用图像描述与知识图谱增强表示的视觉问答

框架

image.png

阅读问题?

为什么采用FasterBCNN?
问题-图像模块如何设计?
问题-描述模块如何设计?

解答

FasterBCNN?阅读文章应该是Faster R-CNN

内容

表示层

图像:

利 用 Visual Genome数 据 集 预训练得到 Faster R-CNN 模 型,基 于 该 模 型 提 取图像中的区域对象。最终一张图像可以表示 为一 个特征矩阵
image.png

Y ← FasterRCNN(I).
其 中,Y=[y1,y2,...,yny ],yi∈ dy ,ny 表示区域 框 数 量 ,dy 表示区域框特征维度。

文本问题:

image.png

图像描述:

image.png

多模态注意力层

image.png

两个模块具有相同的实现方式, 区别只在于将图像表示替换为图像 描述表示。因此 本 文 只 以 问 题 - 图 像 注 意 力 模 块 为 例 进 行 说 明

问题-图像注意力模 块

首先通过 N 层自 注 意 力 机 制 对 文 本 问 题 进 行 编 码,学 习文本问题的自注意力特征,使模型对问题有 一定的理解。
图像先经过 自 注 意 力 机 制 编 码,学 习 图 像 自身的特征 表 示,该 特 征 表 示 与 经 过 N 层 自 注 意力机制编码的文本问题特征表示作为协同注意力机 制 的 输 入 ,计算得到在文本问题指导下的图像的多 模态特征表示。
输出 为:编码器端得到的文本问题的 自注意力特征表示和解码器端得到的问题导向下的图像特征表示。

来源于《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》提出一种结合bottom-up和top-down的注意力机制,能够在对象和其它显著图像区域的水平上计算注意力。

问题-描述注意力模块

将 图 像 替 换 为 图 像 描 述

输 出 层

  • 问 题 引导的图像特征Y
  • 问题自注意力特征Xq
  • 问题引导并融入知识图谱表示的图像描述特征 Xc
  • 融入知识图谱表示的问题自注意力特 征 Xk

以上4部分特征通过线性层映射到 统 一 维 度 ,并且利用加和的融合方式生成最终的向 量 ,然后将该特征向量送入到与答案集合长度相同 的 分 类 器 当 中 ,分 类 得 到 预 测 结 果 。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容