VGG 论文学习

 题目:   VERY DEEP CONVOLUTIONAL NETWORKS 

               FOR LARGE-SCALE IMAGE RECOGNITION

题目译: 大规模图像识别的的深度卷积神经网络


作者: Karen Simonyan∗ & Andrew Zisserman+Visual Geometry Group, Department of Engineering Science, University of Oxford


研究背景:

ILSVRC-2014挑战赛,并在AlexNet、ZFNet、OverFeat、NIN(Network in Network)的研究基础上进行创新发展了VGG

研究成果:

ILSVRC定位冠军,分类亚军,开源VGG16,VGG19

研究意义:

开启小卷积核,3*3卷积核成为主流模型;深度卷积模型时代,作为各类图像任务的骨干网络结构:分类、定位、检测、分割一系列图像任务大都有VGG为骨干网络的尝试


学习目标


摘要核心

1、本文主题:在大规模图像识别任务中,探究卷积网络深度对分类准确率的影响

2、主要工作:研究3*3卷积核增加网络模型深度的卷积网络的识别性能,同时将模型加深到16-19层

3、本文成绩:VGG在ILSVRC-2014获得了定位任务冠军和分类任务亚军

4、泛化能力:VGG不仅在ILSVRC获得好成绩,在别的数据集中表现依旧优异

5、开源贡献:开源两个最优模型,以加速计算机视觉中深度特征表示的进一步研究


网络结构(模型演变(VGG11至VGG19演变过程)

共性:1、5个maxpool(采用2*2窗口,滑动步长为2)2、maxpool后,特征图通道数翻倍直至5123、3个FC层进行分类输出4、maxpool之间采用多个卷积层堆叠,对特征进行提取和抽象

演变过程:

A:11层卷积

A-LRN:基于A增加一个LRN

B:第1,2个block中层架1个卷积3*3卷积

C:第3,4,5个block分别增加1个1*1卷积,表明增加非线性有益于指标提升

D:第3,4,5个block的1*1卷积替换为3*3

E:第3,4,5个block再分别增加1个3*3卷积


参数计算

VGG-16参数计算



VGG-16 结构

VGG 特点:

2个3*3 堆叠的感受野等价于1个5*5

3个 3*3 堆叠的感受野等价于1个7*7

尝试1*1卷积,借鉴NIN,引入利用1*1卷积,增加非线性激活函数,提升模型效果

两个3*3的卷积核视野相当于一个5*5的卷积核

那么怎么来理解2个3*3堆叠的感受野与1个5*5相同?

如下图所示:对于1个5*5的特征图,如果用一个5*5的卷积核与之卷积就会得到一个1*1的特征图;若用两个3*3卷积核也可得到1个1*1的特征图,即第一个3*3与5*5的特征图卷积会得到一个3*3的特征图,该特征图再与另一个3*3的卷积核卷积就也会得到一个1*1的特征图。它们最后都得到了一个1*1的特征图,并且卷积核是对每个像素值都进行了卷积提取,并没有漏掉一个像素,虽然处理的过程不一样,卷积的结果不一样,但2个3*3卷积核也跟1个5*5卷积核一样看到了最初的那个5*5特征图的全貌,所以说他们的感受野等价。

感受野的图解

堆叠3*3卷积核的好处:

1、增加非线性激活函数,增加特征抽象表达能力 

利用2个3*3卷积代替1个5*5卷积,使用了2个非线性激活函数,3个3*3卷积代替1个7*7卷积使用了3个非线性激活函数,还加入了1*1卷积。这增加了非线性表达能力,有助于模型的训练。

2、减少训练参数

假设现在有3个3*3卷积层,每层都有c个通道,那么它的参数总量为:3*(3*3*c)*c=27c^2。而1个7*7卷积层,c个通道,就会产生7*7*c*c=49c^2个参数。参数减少比:(49-27)/49约等于44%

1*1卷积

最初应用 1x1 卷积核的神经网络是 Network In Network。使用1x1卷积核的主要好处:

1、增加网络的深度,使用多个1x1卷积核,在保持feature map 尺寸不变(即不损失分辨率)的前提下,可以大幅增加非线性表达能力,把网络做得很deep。

2、进行卷积核通道数的降维和升维。

3、实现跨通道的交互和信息整合。

总结就是:1x1 卷积核的好处是不改变感受野的情况下,进行升维和降维,同时也加深了网络的深度。


训练技巧:(尺度扰动和预训练模型)

数据增强:方法一:针对位置/或尺寸

训练阶段:1、按比例缩放图片至最小边为S(S为resize 后最小边)   2、随机位置裁剪出224*224区域      3、随机水平翻转

方法二:针对颜色

修改RGB通道的像素值,实现颜色扰动

S设置方法:

1、固定值:固定为256或384

2、随机值:每个batch的S在【256,512】,实现尺度扰动

预训练模型初始化

深度神经网络对初始化敏感  1、深度加深时,用浅层网络初始化B,C,D,E用A模型初始化  2、Multi-scale训练时,用小尺度初始化S=384时,用S=256模型初始化;S=【256,512】时,用S=384模型初始化。

测试技巧:多尺度(Multi crop)测试和稠密 (Dense) 测试

多尺度测试(Multi crop test): 图片等比例缩放至最短边为Q,设置3个Q,对图片进行预测取平均

方法1 当S为固定值时:Q=【S-32,S,S+32】

方法2 当S为随机值时: Q=(S_min,0.5*(S_min+S_max),S_max)


借鉴AlexNet与GoogLeNet,对图片进行Multi-crop,裁剪大小为224*224,并水平翻转图片,缩放至3种尺寸,然后每种尺寸裁剪出50张图片;50=5*5*2

 1、移动的步长为x/4,即(Q−224)/4,所以Q的取值减去224以后,一定可以被4整除;

2、5*5=25,裁剪原图片得到的这25张图片;

3、25*2=50,经过翻转得到50张图片;

 4、50*3=150,因为Q有3种尺寸取值;

稠密测试(Dense test):将FC层转换为卷积操作,变为全卷积网络,实现任意尺寸图片输入

1、经过全卷积网络得到N*N*1000特征图

2、在通道维度上求和(sum pool)计算平均值,得到1*1000输入向量


FC层转换为卷积示意图

测试技巧总结:

Step1:等比例缩放图像至三种尺寸:Q1, Q2, Q3    

Step2:方法1 Dense:全卷积,sum pool,得到1*1000

             方法2 Multi-crop:多个位置裁剪224*224区域

             方法3 Multi-crop & Dense:综合取平均


实验结果及分析

1. Single scale evaluation 

S为固定值时:Q = S, S为随机值时:Q = 0.5(S_min + S_max)

结论: 

1. 误差随深度加深而降低,当模型到 达19层时,误差饱和,不再下降 

2. 增加1*1有助于性能提升

 3. 训练时加入尺度扰动,有助于性能 提升 

4. B模型中,3*3替换为5*5卷积,top1 下降7% 

2. Multi scale evaluation

方法1 :

Q = [S-32, S, S+32]

方法2:

Q = (S_min, 0.5*(S_min + S_max),S_max)

结论 :

测试时采用Scale jittering 有助于性能提升

3. Multi crop evaluation

方法:   等步长的滑动224*224的窗口进行裁剪,在尺

度为Q的图像上裁剪5*5=25张图片,然后再进

行水平翻转,得到50张图片,结合三个Q值,

一张图片得到150张图片输入到模型中

结论 :

1 . multi-crop 优于dense

2 . multi-crop 结合dense,可形成互补,达到最优结果

4. Convnet fusion

方法 : ILSVRC中,多模型融合已经是常规操作

ILSVRC中提 交 的 模 型 为 7 个 模 型 融 合

采用 最 优 的 两 个 模 型

D / [ 2 5 6 , 5 1 2 ] / 2 5 6 , 3 8 4 , 5 1 2

E / [ 2 5 6 , 5 1 2 ] / 2 5 6 , 3 8 4 , 5 1 2

结合 m u l t i - c r o p 和 d e n s e , 得 到 最 优 结 果

5. Comparison with the state of the art

结论 :

单模 型 时 , V G G 优 于 冠 军 G o o g L e N e t


论文总结:

关键点:

1、堆叠小卷积核,加深网络  

2、训练阶段,尺度扰动 

3、训练阶段,多尺度扰动及Dense+Multi crop

启发点:

1、采用小卷积核,获得高精度

2、采用多尺度及稠密测试,获得高精度

3、1*1卷积可认为是线性变换,同时增加非线性层

4、填充大小准则:保持卷积后特征图分辨率不变

5、LRN(局部响应归一化)对精度无提升

6、Xavier初始化可达较好效果

7、若S(resize 后最小边)远大于224,物体可能进展图片的一小部分

8、大尺度模型采用小尺度模型初始化,可加快收敛

9、物体尺寸不一,因此采用多尺度训练,可以提高精度

10、multi crop 存在重复计算,因而低效

11、multi crop 可看成dense 的补充,因而它们边界处理有所不同

12、小而深的卷积网络优于大而浅的卷积网络

13、尺度扰动对训练和测试阶段有帮助

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • 夜莺2517阅读 127,711评论 1 9
  • 版本:ios 1.2.1 亮点: 1.app角标可以实时更新天气温度或选择空气质量,建议处女座就不要选了,不然老想...
    我就是沉沉阅读 6,877评论 1 6
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,520评论 28 53
  • 兔子虽然是枚小硕 但学校的硕士四人寝不够 就被分到了博士楼里 两人一间 在学校的最西边 靠山 兔子的室友身体不好 ...
    待业的兔子阅读 2,584评论 2 9