一块GPU就能训练语义分割网络,百度PaddlePaddle是如何优化的?

一、 图像语义分割模型DeepLab v3

随着计算机视觉的发展,语义分割成为了很多应用场景必不可少的一环。 比如网络直播有着实时剔除背景的要求,自动驾驶需要通过语义分割识别路面,与日俱增的应用场景对语义分割的精度和速度的要求不断提高。同时,语义分割数据集也在不断地进化,早期的Pascal VOC2,其分辨率大多数在1000像素以下。而Cityscape的语义分割数据集分辨率全部达到了1024*2048,总共5000张图片(精细标注),包含19类。这些数据集对研究者,计算设备,甚至框架都带来了更大的考验。

DeepLab v3+ 是DeepLab语义分割系列网络的最新作,其前作有 DeepLab v1,v2, v3, 在最新作中,Liang-Chieh Chen等人通过encoder-decoder进行多尺度信息的融合,同时保留了原来的空洞卷积和ASSP层, 其骨干网络使用了Xception模型,提高了语义分割的健壮性和运行速率。其在Pascal VOC上达到了 89.0% 的mIoU,在Cityscape上也取得了 82.1%的好成绩,下图展示了DeepLab v3+的基本结构4:

DeepLab v3+在主干网络之后连接了Encoder和Decoder,能够在扩大网络感受的同时获得更加高清的分割结果。

在PaddlePaddle的模型库中已经包含了DeepLab v3+的训练以及测试的代码。我们首先安装最新版本的PaddlePaddle并且下载PaddlePaddle的模型库:

当模型仓库成功克隆,你将可以在目录fluid/PaddleCV/deeplabv3+ 下看到用于训练以及测试的代码:


二、开始训练

当数据和代码都已经准备好,我们可以开始训练了,训练的参数和指令如下:



在这个命令中,我们没有使用任何预训练模型,从噪音开始训练DeepLab v3+。并且是直接使用全分辨率进行训练(1024x2048,batch size=1)。几个比较关键的参数解释如下:

环境变量CUDA_VISIBLE_DEVICES=0限制了训练过程仅使用一张GPU,如果存在多张GPU,可以通过修改参数来得到训练速度的提升。

环境变量FLAGS_fraction_of_gpu_memory_to_use=0.99, 该环境变量将会让PaddlePaddle占用99%的显存,可以根据实际情况进行调节。

环境变量inplace_normalize=1,该参数是PaddlePaddle进行显存优化的关键,打开该开关将会让框架对normalize layer进行 inplace 操作来优化显存,现在支持的 normalize layer 有 group normalize。

环境变量fuse_relu_before_depthwise_conv=1,该参数是显存优化的另一个关键参数。这个参数会融合relu和depthwise conv来优化显存。

参数--save_weights_path=$YOUR_SAVE_WEIGHTS_PATH, 这里你需要填入保存模型的路径。

参数--dataset_path=$YOUR_DATASET_PATH, 这里你需要填入数据集的路径。

三、空间时间消耗分析

根据打印出来的信息,我们可以发现,PaddlePaddle在训练DeepLab v3+时,输入一张全分辨率的图片,显存消耗为10.2GB。得益于显存消耗小于11G,我们可以使用1080ti完成训练,训练中每次迭代速度约为0.85s。

我们还可以使用工具,分析DeepLab v3+各部分显存消耗情况:

在该图中,显存消耗最多的是主干网络,占用了68.1%,其次是decoder部分,占用了16.4%,以及encoder占用了5.3%,剩下其他部分为损失函数和数据预处理的显存消耗。

显存消耗最多的是主干网络,占用了68.1%,我们可以继续查看主干网络内部显存消耗情况:

这个图展示了在主干网络中的显存消耗,Xception主干网络主要由三部分组成, EntryFlow,MiddleFlow,以及ExitFlow,可以发现显存消耗最大的是EntryFlow。

在上图中,我们可以发现,尽管Xception主干网络层数最多的部分是MiddleFlow,但是显存消耗最大的却是EntryFlow,这是因为在EntryFlow里的特征还没有被充分下采用,分辨率相当高,同时EntryFlow里的通道数也不容小觑,因此造成了EntryFlow巨大的显存开销,这也为我们的优化指明了方向。

DeepLab v3+使用的主干网络 Xception, MiddleFlow中的分离卷积块重复了16次,层数相比较EntryFlow和ExitFlow要多得多,然而显存消耗最大的却是EntryFlow。

框架对比

除开对网络内部的显存消耗进行分析,我们还对不同框架的显存消耗进行了对比,下表展示了PaddlePaddle和TensorFlow1.12的显存消耗以及性能对比,以下对比实验使用的输入数据是1024x2048全分辨率的图片,batch size为1,测试设备P40(24G):

四、优化原理

这里我们采用的显存优化策略是 fuse_relu_before_depthwise_conv 和 inplace_normalize。顾名思义,fuse_relu_before_depthwise_conv 是讲relu和depthwise_conv融合为同一个operator, 达到显存的节省。而 inplace_normalize 则是使用原地操作来节省显存。在卷积神经网络中,conv+normalize+activation是常见模式,在这种模式下,使用这两种优化策略,可以节省3倍的显存。这两种优化策略归纳起来就是操作融合和原地计算, 是显存优化中的常见策略, 对于不同的框架常常需要耗费人力进行开发, 而我们通过paddle的显存优化可以很轻松的实现这一点。 该优化图示如下:

在该图中,红框标注的data为会消耗显存的数据块,可以看到,通过inpalce和fuse两种操作,原来需要存储6个数据块,优化后仅仅需要2个数据块。

在上图中,我们可以发现,inplace和fuse两种操作,都分别帮助我们在每一个conv+normalize+activation块中节省了1个数据块,所以显存节省的更多了,我们的分割网络也可以消耗更少的显存资源。


总结

显存空间优化和时间优化一样,对空间消耗的压榨是没有止境的。层出不穷的模型,各种不同的优化方式,都对框架提出了很高的要求,选择一款兼顾效果和性能的深度学习框架,往往能够让项目事半功倍。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容