NetVLAD

    相应论文是“NetVALD: CNN architecture for weakly supervised place recognition”。

    首先要明白VLAD是干什么的——VLAD(Vector of Locally Aggregated Descriptors)是一种用聚合后的局部特征来表示全局特征的编码方法。编码算法的具体公式是V(j,k)=\sum_{i=1}^Na_{k}(x_{i} )(x_{i}(j)-C_{k}(j))  x是输入信息(比如图像经过CNN处理后的多层特征图),C是聚类后的中心点(共有k个簇),而a_{k}(x_{i}) 是判断x_{i} 属于第k个簇的可能性。由公式可知,a_{k}(x_{i}) 与k,i都有关,因此可以这样理解,如果将CNN提取的H*W*D的特征看作是H*W个D维特征,这H*W个特征都有着子集对应的簇中心,而簇有k个,所以a有(H*W)*k个取值,但是a只能取1或者0(x_{i} C_{k} 相距最近则取1,否则取0)。公式中x与i,j有关,其实就是说明了x是(H*W)个D维向量,而C是与k,j有关,就是说C是k个D维向量。

    所以,\sum_{i=1}^Na_{k}(x_{i})(x_{i}(j)-C_{k}(j))  就是说,对于每一张feature map上的每个点,分别求其余对应的簇中心点的差值和。所以结果V是一个k*D的矩阵,也就是每一张feature map都要与所有的簇中心计算一个差值,但只保留与最近的簇计算的差值。VLAD保存的是每个特征点与离它最近的聚类中心的距离,并将其作为新的编码特征,用于后接的分类器中。

    我的理解就是VLAD其实就是找个k个簇,使得这k个簇可以尽可能的表征原feature map。V就体现了二者的差异性,值越小,说明原feature与对应的簇越接近。训练阶段就是利用V和BP算法不断修正簇中心对应的向量,为每个簇学习到一个更好的anchor,使得新的差值更小。这里我理解错了,V是对原始特征编码后的新特征,还需要在V后面接上一个分类器就可以组成一个完整的模型并开始训练了。

    那么NetVALD做了一个什么改进呢?其实就是对a做了改进。a表示的是某一个feature与所有的簇的关系,传统VLAD中的a是硬分配方式,就是说将feature强制性分给一个簇,此时a可以表示为[0,0,...,1,0,0,...,0]。这种一刀切的做法肯定不是很好,会造成一定的信息丢失。更好的方式是软分配方式,也就是将feature与每个簇的关系用一个概率值表示(最终所有的概率值之和为1),此时a可以表示为[0.1,0.7,...,0.08,...,0.01]。此时的a就不再是固定的1和0了,而是可以看成是一个神经网络的输出a_{k}(x_{i})=\frac{e^{w_{a}^Tx_{i}+b_{k}}}{\sum_{k=1}^Ke^{w_{a}^Tx_{i}+b_{k}}},此时模型的损失函数V就变成V(j,k)=\sum_{i=1}^N\frac{e^{w_{a}^Tx_{i}+b_{k}}}{\sum_{k=1}^Ke^{w_{a}^Tx_{i}+b_{k}}}(x_{i}(j)-c_{k}(j))。相比于VLAD,NetVLAD包含更多的参数(a由固定的1、0表示变成神经网络表示),因此有着更好的适应性和学习性。原论文中的图更加直观地体现了这种适应性。


NetVLAD相对于VLAD的自适应性

    具体的实现流程图我就截取另一篇论文NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification中的图:

NetVLAD流程图

编码过程其实就是虚线框中的内容,要学习的参数主要有两类,一类是下面生成\alpha 的FC层中的参数,共有N*K个,一类是上面簇中心向量c,也是有N*K个。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容