登录注册写文章

目前VQA的四大方式

目前VQA的四大方式

Joint embedding approaches，只是直接从源头编码的角度开始融合信息，这也很自然的联想到最简单粗暴的方式就是把文本和图像的embedding直接拼接（ps:粗暴拼接这种方式很work），Billiner Fusion 最常用了，Fusion届的LR
Attention mechanisms，很多VQA的问题都在attention上做文章，attention本身也是一个提取信息的动作，自从attention is all you need后，大家对attention的应用可以说是花式了，本文后面专门介绍CVPR2019的几篇
Compositional Models，这种方式解决问题的思路是分模块而治之，各模块分别处理不同的功能，然后通过模块的组装推理得出结果

比如在^[1]中，上图，问题是What color is his tie?先选择出 attend 和classify 模块，并且根据推理方式组装模块，最后得出结论

4.Models using external knowledge base

利用外部知识库来做VQA和很好理解，QA都喜欢用知识库，这种知识储备一劳永逸，例如，为了回答“图上有多少只哺乳动物”这样的问题，模型必须得知道“哺乳动物”的定义，而你想从图像上去学习到哺乳动物是有难度的，因此把知识库接进来检索是种解决方式，例如在[2]

参考

^Neural Module Networks
^Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

你说
夜莺2517阅读 128,305评论 1赞 9
天气应用-我的天气app体验报告
版本：ios 1.2.1 亮点： 1.app角标可以实时更新天气温度或选择空气质量，建议处女座就不要选了，不然老想...
我就是沉沉阅读 7,602评论 1赞 6

爱着
我是一名过去式的高三狗，很可悲，在这三年里我没有恋爱，看着同龄的小伙伴们一对儿一对儿的，我的心不好受。怎么说呢，高...
小娘纸阅读 3,958评论 4赞 7
谢谢你。许我爱你。
这些日子就像是一天一天在倒计时一想到他走了心里就是说不出的滋味从几个月前认识他开始就意识到终究会发生的只...
栗子a阅读 1,743评论 1赞 3

友情链接更多精彩内容

赞1赞

赞赏

手机看全文