MixConv: Mixed Depthwise Convolutional Kernels

Paper Reading Note

URL: https://arxiv.org/abs/1907.09595

TL;DR

传统Depthwise conv使用相同大小的卷积核，本文提出一种包含多种大小卷积核的Depthwise conv，方法简单有效，同flops和同param量下可以获得SOTA性能。

Information below is optional; you can change/remove it if you like

Dataset/Algorithm/Model/Experiment Detail

Motivation

对于传统的Depthwise conv，如果简单增大kernel size，模型性能会先提升后降低，这也符合直觉：极限情况下，当kernel size等于输入feature map size，那么网络就等同于全连接网络，性能会降低。以下是MobileNet当使用不同kernel size时候的acc曲线。

image

基于以上现象，作者思考在Depthwise的conv中结合多种大小的kernel，从而既可以利用大卷积核结合high-resolution patterns，又可以利用小卷积核结合low-resolution patterns，从而兼顾模型性能和运行效率。

MixConv

image

如图，做法很直接，就是将输入Tensor的channel分成不同的group，每个group使用不同的kernel size，group内部就相当于传统的Depthwise conv，然后将结果concat到一起作为输出的Tensor。这可以作为一种opr替换掉传统的Depthwise conv。实现也很简单，如下：

image

对比使用传统Depthwise conv的MobileNet，在使用大卷积核时，模型性能不会降低。

image

MixConv Design Choices

将MixConv加入网络，可以调的参数有：

Group Size g ：显然 g=1 时，等价于传统的Depthwise conv。作者的实验结果是，对于MobileNet， $g=4$ 较优。
Kernel Size Per Group: 理论上每个Group的kernel size可以任意取，但是如果两个group 的kernel size相同就可以合并，所以作者限制不同的group使用不同的kernel size。作者设计的kernel size取值方法是，从 3∗3 开始，每增加一个group，kernel size加2，如 g=4 kernel size为 {3∗3,5∗5,7∗7,9∗9} .
Channel Size Per Group: 本文中提到两种：（1）Equal partition （2）Exponential partition：第 i个group，channel数占比总channel数 2−i
Dilated Convolution：可以使用Dilated Conv代替大卷积核，但是作者实验结论是，Dilated Conv往往不如大卷积。

MixNet

作者对使用MixConv的网络，用NAS（neural architecture search）搜了一族网络结构，称为MixNet。可以在 ImageNet及各种transfer learning的数据集上取得了SOTA性能。网络结构如下：

image

Experiments

MixConv for Single Layer
作者做了一个有趣的实验，将MobileNetV2 15层中的每一层用（1）vanilla Deptehwise Conv, kernel size=9*9; 或者(2) group=4 的MixConv，kernel size= {3∗3,5∗5,7∗7,9∗9} 替换，结果如下图：

image

一些insights: 对于stride=2的层，使用大卷积核可以涨点。
Channel Partition Methods
两种分隔channel的方法在MobileNetV1和V2上表现不一，难分高下。但是Exponential partition这种方法的可能缺陷是使用大卷积核的层比较少，不能很好的利用high-resolution 信息。

image

Dilated Convolution：
对于小卷积核，替换为Dilated Conv可以涨点，但是对于大卷积核，替换为Dilated Conv会掉点，一个可能的原因是，对于大卷积核，如果用Dilated Conv，会忽略较多局部信息，从而掉点。

Thoughts

一个简单的改进，可以获得较大的性能提升。但是隐隐感觉这个网络在实际设备上运行latency会不如其他移动端网络，虽然flops小。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,928评论 6赞 509
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,748评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,282评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,065评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,101评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,855评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,521评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,414评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,931评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,053评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,191评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,873评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,529评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,074评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,188评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,491评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,173评论 2赞 357

MixConv: Mixed Depthwise Convolutional Kernels

TL;DR

Dataset/Algorithm/Model/Experiment Detail

Motivation

MixConv

MixConv Design Choices

MixNet

Experiments

Thoughts

推荐阅读更多精彩内容