摘要
在本文中,作者探索了Atrous空间金字塔池化模块(ASPP)的新的更深版本,并应用了长残差连接和短残差连接以及深度可分离卷积,从而产生了一个快速有效的模型。 作者引入了LiteSeg体系结构,并通过Darknet19,MobileNet和ShuffleNet等多个骨干网络进行了测试,以在准确性和计算成本之间提供多种折衷方案。
收到编码-解码结构,空洞空间金字塔池化(ASPP),空洞卷积核深度可分离卷积的启发,作者设计了一个新颖的结构——LIteSeg,它能够适应任何backbone网络,通过选择不同的backbone网络,LiteSeg将允许在计算成本和准确性之间进行多种取舍,以适应多种需求。
方法介绍
空洞卷积:空洞卷积结构中,下采样操作将导致空间信息丢失,这可归因于跨步卷积和池化层。为了解决整个问题,采用空洞卷积可以在增加感受野的同时不见效特征图的分辨率,同时没有增加可训练的参数。这使网络可以学习整个图像的全局上下文特征,来精修全分辨率预测。
深度可分离卷积:深度可分离卷积的主要思想是将输入和内核分成通道(它们共享相同数量的通道),并且每个输入通道将与相应的内核通道卷积。 然后,使用1×1卷积执行逐点卷积,以将深度卷积的输出投影到新的通道空间中。 实验证明,采用深度可分离卷积[26]可以降低计算成本,并且具有相似或更好的性能。
短距离长距离残差连接:事实证明,融合和重用低层特征(包括颜色斑点或边缘)和顶层的高层特征有助于高分辨率分割[27]。这种融合可以通过短残差连接(SRC)从近层的特征图和通过长残差连接(LRC)在远层的特征图之间完成。 这些连接充当网络中的存储单元[28],因为它们允许保留从底层到顶层的信息。残差连接的两种方式是1.逐元素的相加(add操作)2.通道的级联(concatenate操作)这里,作者采用级联方法作为元素级加法,要求残差输出和输入具有相同的尺寸宽度,高度和深度,而不是传统的级联,后者仅需要相同的宽度和高度尺寸。作者发现长跳跃连接有助于使语义边界更清晰,而DASPP短跳跃连接有助于对语义分割进行细调,从而提供更丰富的几何信息(图1)。
编码器:作者所提出的编码器包含backbone网络体系结构,该backbone网络体系结构用作用于特征提取的图像分类体系结构。选择这些架构是为了满足我们的性能标准,因此我们使用了不同的三种轻量模型MobileNet,ShuffleNet和Darknet19来测试了该架构。不仅backbone的的类型能控制性能,输出步幅[4]也(定义为输入图像大小与编码器的最后特征图之间的比率)能控制网络的性能。假设高度H,宽度W和深度C为输入图像尺寸,并且主干网络的输出为h,w和c,因此将输出步幅定义为os = H×W / h×w。输出步幅的减小会导致具有高分辨率的特征图,并且还会得到更好的结果[4],因为保留了整个网络中更多的空间信息,但是这会带来计算成本。backbone网络的输出步长是通过删除最大池层并修改最后卷积层的跨度来控制的。输出步幅等于16的Deeplabv3 + [2]是精度和计算效率之间的最佳折衷方案。此外,他们发现,使用等于8的输出步幅可以大大提高精度,但计算量巨大,并且可以通过将输出步幅增加到32来提高计算效率,但会降低精度。因此,作者所提议的backbone网络配置了MobileNetV2 [23]和ShuffleNet [24]的输出步幅为32,以及输出步长为16的Darknet19,以实现精度和速度之间的不同权衡。 DeepLabv3 [4]使用Atrous空间金字塔遵循ParseNet [29]中提出的方法,使用具有不同膨胀率的(ASPP)模块来捕获多尺度信息。在这里,作者提出了一种新的更深版本的ASPP模块(称为“更深的Atrous空间金字塔池(DASPP)”),方法是在3×3的空洞卷积之后添加标准的3×3的卷积来精修特征,并通过短残差连接来融合输入和DASPP模块的输出。同样,ASPP的卷积核的数量从255减少到96,从而获得了更快的计算性能。
解码器:Deeplabv3 + [2]提出了一种简化的解码器,该解码器由标准的3×3卷积和上采样层组成。在这里,作者添加了另一个3×3卷积层,并将所有3×3卷积的滤波器数量从256减少到96 计算性能增益。 另外,通过长距离残差连接,可以从backbone网络的较早层使用低层特征增强编码器的输出。 这些低级特征可能具有大量的特征图,并且为了解决该问题,利用1×1卷积来减少低层特征的通道数量。 否则,在某些轻型backbone网中,由于通道数量较少(例如,在使用MobileNet的情况下为24个通道),因此无需在低级特征上应用1×1卷积
实验结果
DASPP模块:图3表一中的第二行所示,当将DarkNet19的输出步长从32减小到16时,准确率上涨了2.37%。保持MobileNetV2 和ShufleNet 步长为32不变时,准确率分别上涨了0.1%和0.9%。作者将DASPP模块中的空洞卷积率设置为了3,6,9,后面接了标准的3x3卷积。
预训练:作者采用了在粗略标注数据上预训练的模型,结果如表1中的第三行,结果分别上涨了0.7%,1.6%和1.3%。
多尺度输入:表1中的第四行是多尺度输出后预测结果的平均值,可以看出多尺度输入对于网络的准确率提升是有帮助的。
深度可分离卷积:作者采用深度可分离卷积,来替换标准卷积,不仅降低了浮点运算,而且还一定程度上提升了准确率,如表1第五行所示。
作者将LiteSeg在cityscapes测试集中进行实验,,并将其结果与其他模型的结果进行比较。 如图5所示,我们将测试集上的结果与其他用于语义图像分割的最新实时模型进行了比较。 尽管LiteSeg-DarkNet19与ERFNet相比具有较高的GFLOPS,但它分别将ERFNet和DSNet的准确度分别提高了2.75%和1.45%(如图4),而速度上相对于ERFNet和DSNet仅仅慢了7 FPS和2.5 FPS(在360x640)。