DL-Paper精读:RepVGG

RepVGG:Making VGG-style ConvNets Great Again

https://arxiv.org/abs/2101.03697

Background

VGG在神经网络的发展历史中有着举足轻重的地位,13年一举夺下ImageNet分类冠军,时至今日,依然被广泛研究和使用。虽然这些年已经有各种工作,逐渐在精度层面超越了VGG,如ResNet,Icp等经典多分支网络网络,及更近些年基于搜索的NAS类工作及RegNet等精心设计的网络。但这些网络结构,虽然在分类精度上表现出更好的优越性,但VGG简洁的架构(conv-relu-pooling的plain堆叠)依然在inference速度上表现出较好的优势。

Related work and the limit

在VGG之后的网络架构设计,比较突出的包括ResNet,Icp,DesNet等多分支结构,降低了网络运行速度及内存利用率,降低并行度。近几年的一些卷积模块设计,包括depthwise, shuffle等操作,增加了内存访问消耗,而且对很多硬件来说并不支持。这些复杂结构虽然提高了精度,也降低了FLOPs等参数,但对于实际的运行速度提升并不明显,因此在实际的工程中,VGG及基础的ResNet网络依然被广泛使用。

问题核心:VGG精度较差但有利于硬件inference;多分枝网络有利于训练,精度高,但在inference时受限

Novel points

通过重参数化操作,将多分枝网络的training和inference阶段解耦,实现高精度的训练,和低latency的推理。

decouple the training-time multi-branch and inference-time plain architecture via structural re-parameterization

Methodology

RepVGG的核心结构如图所示,在training时采用多分枝结构,inference时等效替换为VGG-style的结构。网络部件选择Conv_3x3和Relu(3.1节实验显示3x3卷积的计算密度最高,最受欢迎)。

training: 网络结构如图B所示,采用类似于ResNet的多分枝结构(多分枝包含隐性的网络ensemble,有利于解决训练过程中的梯度消失问题),主要为并行的(3x3Conv, 1x1Conv, Identity,三者后都增加BN操作),三个操作并行结束后add组合,再经过一个Relu。在down sample的时候,采用stride = 2的卷积,放弃了VGG中的pooling。

inference: 如图C所示,简洁的Conv + Relu形式网络

*转换(Re-Parameterization):这一部分是核心问题,如何实现训练和推理时的架构等效替换,而不造成精度损失,较为关键。

具体步骤如图所示:主要分为两个步骤: 1、卷积与BN层的合并,即模型部署中常见的merge操作;2、分支的组合。这里其实还隐含了一个卷积核的转换步骤:首先通过数学等效替换,采用一个固定参数的1x1 kernel(值为1)来作为Identity操作;然后对两个1x1 卷积(原有的+identity转换的)进行zero-padding转为等效的3x3Conv;最后对所得的三个3x3卷积(带bias)的卷积核直接组合(对应点相加)为一个3x3 Conv。由于该多分支部分未涉及到非线性变换,因此可以实现数学上的等效变换而不影响最终结果。

Evaluation(benchmark, experiments design)

结果非常优秀,在ImageNet上的精度及速度对比如图所示。总的来说,实验结果有以下几项内容:

1、相比于原始VGG及其他类似的Plain网络改进工作来说,在精度层面都有较大的提升,因此该方法采用multi-branch的结构进行训练是有效的。

2、在不同尺度的缩放下,RepVGG在精度和速度上都普遍超越了ResNet系列及RegNext系列网络,效果非常突出。

3、在分割等泛化实验中,同样证明了该架构的有效性

4、Ablation实验证明了训练中的多分枝架构的有效性,具体如下所示。

Thoughts:

1、Describe what the authors of the paper aim to accomplish, or perhaps did achieve.

提出了一种训练与推理解耦的网络架构RepVGG,训练时采用多分枝结构提高精度,训练结束后采用重参数化方法改变架构变为VGG-style的网络,从而更有效地实现推理。

2、If a new approach/ technique/ method was introduced in a paper, what are the key elements of the newly proposed approach?

采用重参数化的方法,有效地将多分枝结构等效替换为single-path的结构

3、What content within the paper is useful to you?

一种reasonable并且易于实现的方法,对实际的神经网络工业应用有重要价值。

4、Which parts are not perfect, or need to be improved or researched further?

在Re-parameterization部分的推理不够详尽,(ACB中有详细推导,可以进行参考,ACB同样是该团队关于重参数化的一项研究)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容