论文《Composing Text and Image for Image Retrieval - An Empirical Odyssey》的理解与复现（一）

去年只是精读了这篇论文，但还是有点浮在上面的感觉，所以从上个月（2022年7月）开始对此论文进行复现工作，因为个人喜欢彻底搞懂新东西，不是泛泛的运行出来结果就了事，基本花了一个多月的时间基本全部搞懂了此论文包括代码逻辑分析和复现。

这篇论文是在2018年发表的，因为作者中有飞飞女神，所以就比较关注了。这篇论文在多模态方面的最新研究也是老的了，现在都是基于transformer。论文中主要使用了two streams方法查询图像经过ResNet18模型后得到长度为512的图像特征，文本经过LSTM模型后得到长度也为512的文本特征，接着对两种特征进行融合，最后经过三元组损失函数进行损失计算。

pipeline

这篇论文的创新的一面是在特征融合中为了更好的图像+文本的多模态检索性能，在两种特征融合过程中，一方面将网络层加深，另一方面使用残差结构，随着网络层加深的同时有可能学习效果并非好（梯度消失和梯度爆炸问题）加了残差后保证了学习的效果至少不比原来差。这种残差模型论文中定义为Text Image Residual Gating（TIRG）。

图像特征和文本特征在什么地方进行融合，残差结构如何，论文中有不同的尝试：

$\bullet$ TIRG-Last Conv结构如下图：

>> Query Images、Texts分别经过ResNet18、LSTM网络之后，进行按列concat操作；

>> 之后再次用包含两个卷积的mod块的浅层网络进行融合特征学习；

>> 接下来是一个残差块，gate块的结构与 mod块相同，包含两个卷积，再次学习融合特征，为了保证学习效果至少不比mod块差，将mod出来的融合特征t作为identity，建立一个residual connection。可以看到gate块出来融合特征g并不是简单的相加。而是有两个可学习的系数 $w_{g}$ 、 $w_{t}$ (论文中为 $w_{r}$ )，使得学习效果更好；

>>有一点注意的是这个结构中没有经过ResNet18的最后两步：Average Pooling和Full Connection，x的大小为[32, 512, 7, 7],经过融合mod块和残差块学习后再完成verage Pooling和Full Connection。所以这个结构叫TIRG Over the Last Conv.

TIRG-Last Conv

$\bullet$ TIRG结构如下图:

>> Query Images、Texts分别经过ResNet18、LSTM后，再分别经过并行的gate块和Residual块进行特征融合，而TIRG-Last Conv只有一路；

>> 然后将gate块和residual块出来的融合特征进行相加，论文中说这也是残差结构，与我们平时理解的确实有点不同哦，姑且认为右边是含两个FC层的深度网络块作为identity，因为左边的gate块如果不起作用相当与加法式子的左一项为0，右边确实是identity了。这个结构中的gate块、residual块可以看作是一个两层的MLP。TIRG-Last Conv结构中的gate块和TIRG中的gate块的意思，个人猜想如果经过gate块学习更好，算是gate门控开了，否则算是gate门控学的不好，门关闭了；

>>与TIRG-Last Conv结构一样，有两个可学习的系数 $w_{g}$ 、 $w_{r}$ ，使得学习效果更好；

>> 可以看到此结构中第一个FC是1024的，这样让网络学得更多的特征；

TIRG

论文《Composing Text and Image for Image Retrieval - An Empirical Odyssey》下载地址：https://arxiv.org/pdf/1812.07119

最后编辑于：2022.08.17 10:24:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,125评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,293评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,054评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,077评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,096评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,062评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,988评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,817评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,266评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,486评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,646评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,375评论 5赞 342
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,974评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,621评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,796评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,642评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,538评论 2赞 352

论文《Composing Text and Image for Image Retrieval - An Empirical Odyssey》的理解与复现（一）

推荐阅读更多精彩内容