图像分类训练技巧包（一）

image

论文名： Bag of Tricks for Image Classification with Convolution Neural Networks
论文地址： http://arxiv.org/pdf/1812.01187v2.pdf

这篇文章是亚马逊李沐团队的一篇技巧(tricks)文章，被CVPR2019收录了。虽然题目是讲的Image Classification，但是作者也说了，在目标检测，实例分类等问题上也是有一定的作用的。在此做下笔记，有理解不对的地方还请大佬们勿喷。

摘要

先看看这篇文章的摘要部分：

image

翻译一下：

【摘要】图像分类研究最近取得的许多进展可以归因于训练过程的改进，例如数据增强和优化方法的改变。然而，大多数改进要么只是作为实现细节被简要地提到，要么只在源代码中可见。在本文中，我们将研究这些改进的一系列集合，并通过 ablation study 评估它们对最终模型精度的影响。我们将证明，通过将这些改进组合在一起，我们能够显著改进各种 CNN 模型。例如，我们将 ResNet-50 在 ImageNet 上的 top-1 验证精度从 75.3% 提高到 79.29% 。我们还将证明，图像分类准确性的提高，可以在目标检测和语义分割等其他应用领域带来更好的迁移学习性能。

结论

先上结论：

image

论文概要

1.第 2 节，建立了一个 BaseLine 训练过程，

2.第 3 节，讨论了一些有效训练的技巧。

3.第 4 节，回顾了 ResNet 的三个小型模型体系结构调整，并提出了一个新的改进。

4.第 5 节，讨论另外四个训练过程的改进。

5.最后，在第六节中研究这些更准确的模型是否有助于迁移学习。

BaseLine训练过程

不是文章重点，就不细说了。
作者基于MXnet框架复现了几个网络结构，具体指标如下：

image

tricks结构

论文中的tricks部分将从以下几个部分展开：

image

也即：训练速度，网络结构，训练过程优化，迁移学习。

Efficient Training 高效训练

"硬件，尤其是GPU，近年来发展迅速。因此，许多与性能相关的权衡的最佳选择已经改变。例如，现在在训练期间使用更低的数值精度和更大的批量大小更有效。在本节中，我们将介绍各种能够实现低精度和大批量训练的技术，而不会牺牲模型的准确性。有些技术甚至可以提高准确性和训练速度。"

2017年，谷歌大脑发布了一篇论文，从论文的名字，我们就可以看出论文是想干嘛。（谷歌爸爸取名字还真是简单粗暴啊）

image

论文中指出，越大的batchsize，能带来越好的结果。
实验结果(b)进一步显示增大 Batch Size 的好处，观察损失值与参数更新次数的关系。

image

其中：
蓝线代表常见的保持 Batch Size，逐步衰减学习率的方法；
红线代表与之相反的，保持学习率，相应的上升 Batch Size 的策略；
绿线模拟真实条件下，上升 Batch Size 达到显存上限的时候，再开始下降学习率的策略。

显然，增大 Batch Size 的方法中参数更新的次数远少于衰减学习率的策略。

我们再看一张图：

image

这张图可以清晰的看到，更多的一些细节：

Batch_size太小的话，模型在200个epoch内并不会收敛。
随着Batch_size增大，处理相同数据量的速度会越来越快。
随着Batch_size 增大，达到相同精度所需要的epoch数量越来越多。
以上的观点有一点的矛盾，因为，Batch_size增大到某一时刻，会达到时间上的最优。由于最终精度会陷入不同的局部极值，因此Batch_size在增大到某个时刻，达到最终收敛精度上的最后。

在训练的时候，我们都知道要将Batch_size参数设置的大一些。但是我们也知道，过大的Batch_size会造成如下的缺点：1.模型收敛过慢。2.占用更大的显存。3.训练结果反而会比较小的Batch_size训练结果更差。那我们有没有什么办法在增大Batch_size的同时又避免这些缺点呢？
答案当然是有的！
作者整理了以下方法：

image

Large-batch training 大批量训练

盲目增大批大小其实无益于提升训练效果，但却有各种小技巧。为了能进行大Batch_size的训练，作者对比了四种启发式方法（什么是启发式方法？）

Linear scaling learning rate 等比例增大学习率

在小批量SGD中，梯度下降是随机过程，因为在每个批次中样本都是随机选择的。增加批量大小不会改变随机梯度的期望，但会降低其方差。换句话说，大批量会降低梯度中的噪声，因此我们可以提高学习率，以便进行调整。换句话说就是，等比例增大学习率是有用的，Accurate, large minibatch SGD: training imagenet in 1 hour.论文中提到，随着批量大小线性增加学习率地训练 ResNet-50 。
例如：作者按照何恺明的resnet论文中的内容，选择0.1作为Batch_size为256的初始学习率。当第b个batch时，学习率线性增加到0.1×b/256。

Learning rate warmup 学习率预热

这一个技巧是facebook所提出。

image

在训练的开始时期，所有的参数都是一个随机值，这样离最终结果差的比较大。使用大的学习率会导致数值的不稳定。可以先采用一个手段使得训练过程稳定下来。这个手段就是“学习率预热”，那么什么是学习率预热？就是在训练最开始的时候，先使用一个小的学习率训练，当训练稳定下来后，再换回原来设定的学习率。

image

facebook则提出一种预热策略，就是从0到设定学习率之间采用线性关系形式。

m个batches是用来warmup的，我们设置的初始lr为η，那么当第i（1≤i≤m）个batch时，lr为i×η /m。

Zero γ 零γ初始化

这一技巧是针对resne所提出，也是Facebook的成果。

image

我们首先回顾一下resnet的结构。我们知道resnet网络由多个残差块组成，每个残差块由几个卷积网络组成。给定输入x，假设block(x)是块中最后一层的输出，则该残余块输出block(x)+x。

image

block块中的最后一层就是一个BN层，具体操作如下：1.求均值。2.求方差。3.归一化。4.缩放和偏移。

第4步将normalize后的数据再扩展和平移。是为了让神经网络自己去学着使用和修改这个扩展参数γ,和平移参数β, 这样神经网络就能自己慢慢琢磨出前面的normalization操作到底有没有起到优化的作用, 如果没有起到作用, 就使用γ和β来抵消一些normalization的操作。

image

其中，γ和β都是可训练的参数。通常的做法是在初始化时，将β设为0，但是作者提出在初始化时可以将γ也设为0，也就是上图中的block在初始化时输出为0。这样一来，输出就只有shortcut结构的输出了，也即输出等于输入。

这样的好处：将所有残差块中的最后一个BN中的初始化设置成0，也即残差块的输出等于输入，相当于模型的网络层数较少，可以使得模型在初始化阶段更容易训练。

image

No bias decay 无偏置衰减

这一技巧来自腾讯机智团队。

image

Weight Decay是用来解决过拟合问题。但是一般来说，会对可学习的参数如 weight 和 bias 都会做 decay，通常的做法是使用L2正则化来做。机智团队提出只对卷积层和全连接层的weight做L2中正则化，不对bias，BN层的γ和β进行正则化衰减。

题外话

说个题外话：大家看到之前的几篇文章的标题，很是唬人。什么1小时训练完ImageNet、4分钟训练完ImageNet。那么问题来了，目前最快训练完ImageNet的是谁？

image

截止到2019年3月，最快训练完ImageNet的是日本公司Fujitsu。值得注意的一点是使用的也是MXNet框架。在 MXNet 中将很多的 tricks 默认嵌入到了框架之中。这次的训练也采用了很多的这篇文章所提到的一些技巧：

0.大batch size

1.由于更新数量较小，研究人员需要采用较高的学习率来加速训练。但是，较高的学习率会导致模型在早期阶段训练不稳定。因此，研究人员采用能够逐步提升学习率的预热技术来稳定(SGD。)

2.之后会提到的标签平滑（label smoothing）

Low-precision training 低精度训练

首先是三种精度的介绍和比较。神经网络的训练常常使用 32 位 float 类型（ FP32 ）对所有的数据和参数进行存储和计算。

image

从TegraX1开始， NVIDIA 的 GPU 将支持原生的 FP16 计算指令，理论上可以获得两倍于FP32的性能，适用于大规模的神经网络或者计算机视觉相关的应用。而从 CUDA 7.5 开始，开发者可以很容易的直接使用内置的half以及half2 将原有的 FP32 的代码移植为 FP16。

image

最近几年，nvidia为了加速训练过程，在最新的架构中还增加了特殊的fp16矩阵运算（逻辑）单元，专门用于较低精度的数据类型。2017年5月11日发布的英伟达特斯拉V100，增加了特殊的fp16矩阵运算（逻辑）单元，专门用于较低精度的数据类型。使得新的计算设备提供了低精度的16位float类型（FP16）的计算能力，于是就有了拿FP16来进行计算的方式。

image

于是有人提出能不能全部使用FP16来进行网络的训练，可以是可以，虽然会让训练速度提升，但是结果的精度也会下降呀。

image

百度研究院提出混合精度训练。

image

在整个训练过程中，用FP16来存储参数、计算梯度，同时留一个32位精度的参数的备份，用于更新参数。

image

在V100上从FP32切换到FP16后，整体训练速度加快了2到3倍。

结果

以上五种做法对实验结果的影响如下:

image

可以看到Zero γ这个技巧是提升比较大的。

本篇文章主要介绍了论文的概要，大批量训练的一些tricks以及快速训练所使用的低精度训练方法。第二三篇将介绍模型微调，训练调整等技巧。

参考文献

论文解读-Bag of Tricks for Image Classification with Convolutional Neural Networks
[深度学习] Image Classification图像分类之Bag of Tricks for Image Classification with Convolutional Neural Net
Amazon深度学习工程师总结的分类模型炼丹技巧总结
 Accurate, large minibatch SGD: training imagenet in 1 hour

Deep residual learn ing for image recognition
Highly scalable deep learning training system with mixed-precision: Training imagenet in four minutes
Mixed precision training

谈谈深度学习中的 Batch_Size
2048块GPU再次加速SGD：富士通74.7秒完成ResNet-50 训练

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335

图像分类训练技巧包（一）

摘要

结论

论文概要

BaseLine训练过程

tricks结构

Efficient Training 高效训练

Large-batch training 大批量训练

Linear scaling learning rate 等比例增大学习率

Learning rate warmup 学习率预热

Zero γ 零γ初始化

No bias decay 无偏置衰减

题外话

Low-precision training 低精度训练

结果

参考文献

推荐阅读更多精彩内容