基于DenseNets构建的形状像梯子的语义分割架构,其不仅精度达到目前最高(超越DeepLabV3+),而且参数量少,计算速度快,可谓语义分割领域的新突破。
图中DB代表这Dense Blocks,TD为transition layers,TU为transition-up blocks,f为输出特征图(后面的数字为特征图个数),输出特征图上的x4、x8...x32为下采样倍数,SPP为spatial pyramid pooling module。
可以看出,其最明显的特征是有两个数据路径。
上面的为下采样数据路径,特征图不断缩小。下面为上采样数据路径,并在此进行数据融合。
整个结构宛如梯子,故称梯形风格的(Ladder-style) DenseNets 。
介绍摘自 https://mp.weixin.qq.com/s/geANIVbd4C0qpSig0IB2zA图中DB代表这Dense Blocks,TD为transition layers,TU为transition-up blocks,f为输出特征图(后面的数字为特征图个数),输出特征图上的x4、x8...x32为下采样倍数,SPP为spatial pyramid pooling module。
可以看出,其最明显的特征是有两个数据路径。
上面的为下采样数据路径,特征图不断缩小。下面为上采样数据路径,并在此进行数据融合。
整个结构宛如梯子,故称梯形风格的(Ladder-style) DenseNets 。
作者称代码将在论文被接收后开源,期待!
论文 Efficient Ladder-style DenseNets for Semantic Segmentation of Large Images
Abstract
近年来的深层图像分类模型的发展为提高相关计算机视觉任务的最先进性能提供了巨大的潜力。然而, 当代 Gpu 严格的内存限制阻碍了向语义分割的过渡。即使对于中等大小的 pascal 图像, 卷积后反向传播所需的featuremap缓存范围也带来了重大挑战, 而在源分辨率在百万像素范围内时, 需要仔细考虑体系结构问题。为了解决这些问题, 我们提出了一种新的基于 densenet 的梯形体系结构, 它具有高建模能力和轻量级上采样数据路径。我们还建议利用 DenseNet 特征提取器固有的空间效率, 大幅降低要素图缓存的范围。由此产生的模型提供了比竞争方法更少的参数的高性能, 并允许在商品硬件上进行百万像素分辨率的训练。所提供的实验结果在cityscapes、Pascal VOC 2012、CamVid 和 ROB 2018 数据集的预测准确性和执行速度方面优于最先进的结果。源代码将在发布时发布。
1 INTRODUCTION
语义分割是一项计算机视觉任务, 其中训练的模型将像素分为有意义的高级类别。由于是对对象本地化的补充, 它代表了朝着高级图像理解迈出的重要一步。一些最吸引人的应用包括自主控制 [1]、智能交通系统 [2]、辅助照片编辑 [3] 和医学成像 [4]。早期的语义分割方法优化了多个局部分类线索 (纹理、颜色等) 与图像中的全局一致性之间的权衡 [5]。以后工作改进了这些想法与非线性特征嵌入 [6], 多尺度分析 [7] 和深度 [8]。通过促进像素和语义标签之间的一致性 [9], 以及通过学习不对称的对语义一致性 potentials[10], 提高了空间一致性。然而, 由于深卷积模型 [7], [11], 非加工方法能够与改进相匹配。
深层卷积模型导致了前所未有的计算机视觉发展速度。模型深度已从 8级 [12] 稳步增加到 19 [13]、22 [14]、152 [15]、201 [16] 和 [15] 以上。许多注意力都集中在残余模型 (也称为 Resnet) [15], [17] 其中每个处理步骤表示为化合物非线性单位与其输入之间的总和。这引入了一个辅助信息路径, 它允许在 ssthel数百万层上进行扩正, 类似于状态向量在 LSTM 细胞之间的流动。然而, 与剩余模型的深度不同, Veit 等人 [18] 已经根据经验确定, 大多数训练都是沿着相对较短的路径进行的。因此, 他们推测, 剩余模型作为一个指数大的集合适度深的子模型。此视图
特别是令人信服的情况下, 剩余连接与标识映射 [17]。最近的方法 [16], [19] 复制和超越残余模型的成功, 引入跨层的滑移连接。这鼓励了功能共享, 并阻止了过度拟合 (尤其是当语义类具有不同的复杂性时), 同时也有利于向早期层的梯度流。我们的工作基于密集连接的模型 (也称为 DenseNets) [16] 卷积单元在当前分辨率下对所有以前要素的串联进行操作。我们基于 DenseNetbased 的语义分割模型的性能优于基于 Resnet [17] 和最新的双路径网络 [20] 的相应模型。使用 Densenet 的另一个动机是由于广泛的功能重用而具有节省内存的潜力 [16]。但是, 这种潜力并不容易实现, 因为简单的反道具实现需要多个连接功能的缓存。我们表明, 这些问题可以有效地解决积极梯度检查点 [21], 这导致5倍内存减少, 只有20% 的培训时间增加。
无论哪种结构, 用于语义分割的深层卷积模型都必须降低深层的空间分辨率, 以满足严格的 GPU 内存限制。随后, 将深度特征仔细地采样到图像分辨率中, 以便在语义边界和小对象上生成正确的预测。有些方法通过减少通过膨胀过滤的子采样的范围来处理这个问题 [22], [23], [24], [25], [26]。其他方法通过利用缓存的最大池开关 [27]、[28] 或从早期层 [4]、[29]、[30]、[31]、[32] 激活逐渐颠覆深度卷积特征。我们的方法与后一组有关, 因为我们还将深层特征的语义与早期图层的定位精度融合在一起。然而, 以往的方法具有复杂的更新数据路径, 需要大量的计算资源。我们表明, 即使采用简约的向上采样, 也能实现强大的模型, 而且这种模型非常适合对大图像进行快速处理。本文提出了一种基于 DenseNet 特征和阶梯式 [33] 向上采样的大型图像语义分割的有效轻量级体系结构。我们建议对我们以前的工作 [34] 进行一些改进, 从而提高准确性和更快的执行速度, 同时使用更少的内存和更少的参数。我们的综合贡献有三个方面。首先, 我们提出了一个详尽的研究使用密 connected[16]feature 提取器的有效语义分割。其次, 我们提出了一个精益梯形更新数据路径 [33], 它需要更少的内存, 并实现了比以前的方法更好的 Iu/flop 权衡。第三, 我们通过在卷积后道具过程中主动重新计算中间激活来进一步减少训练内存占用 [21]。该方法在预测精度和模型复杂度之间取得了很好的平衡。关于 Cityscapes、CamVid、ROB 2018 和 Pascal VOC 2012 的实验展示了最先进的识别性能和执行速度, 并有少量的培训要求。
2 RELATED WORK
3 COMPARISON BETWEEN RESNETS AND DENSENETS
4 THE PROPOSED ARCHITECTUR
提出了一种精度高、内存占用小、执行速度快的轻量级语义分割体系结构。该体系结构由两个水平导轨指定的数据路径组成, 提出了一种精度高、内存占用小、执行速度快的轻量级语义分割体系结构。该体系结构由两个data路径组成, 这两个路径由图2中的两个水平导轨指定。下采样数据路径由修改后的 DenseNet 特征提取器 [16] 和轻量级空间金字塔池模块 (SPP) [22] 组成。要素提取器通过逐渐降低空间分辨率和增加要素图的数量 (图2中的顶轨), 将输入图像转换为要素张量 F。SPP 模块利用上下文信息丰富了 DenseNet 功能, 并创建了上下文感知功能 C。将更新数据转换功能 c 到高分辨率语义预测 (图2中的底部导轨)。语义的有效融合是由深层与早期层次的细节相结合的。
4.1 Feature extraction
DenseNet 特征提取器 [16] 由密集块 (DB) 和过渡层 (TD) 组成 (参考。图 2)。每个密集块是卷积单元的串联, 而每个卷积单元在所有前面单元和块输入的串联上运行, 详见第3节。与最初的 DenseNet 设计不同, 我们将密集块 DB3 拆分为两个片段 (DB3a 和 DB3b), 并在它们之间放置一个条带状的平均池层 (D)。这扩大了 DB3a 后所有卷的接受场, 同时降低了它们的计算复杂度。与空洞滤波 [23] 相比, 这种方法可以权衡空间分辨率 (我们后来使用阶梯式混合来恢复空间分辨率), 以提高执行速度并减少内存占用。我们使用 imagenet 预训练的原始 DenseNet 模型的权重初始化 DB3b 筛选器, 尽管新的池图层以 ImageNet 预培训期间所没有的方式改变了功能。尽管存在这种差异, 微调还是成功地恢复并实现了竞争性泛化。特征提取器的最后是将所有 DB4 单元连接到64× subsample 表示 f。
4.2 Spatial pyramid pooling
空间金字塔池模块 (SPP) 通过在几个空间网格上用平均池增加 F 来捕获广泛的上下文信息 [22]、[45]、[46]。我们的 SPP 模块首先投影 f 到 D/2 地图, 其中 D 表示 DenseNet 特征的维数。然后, 生成的张量平均汇集在四个网格上, 包括1、2、4和8行。网格列的数量是根据图像大小设置的, 以便所有单元格都有一个正方形。我们将每个集合张量投影到 D/8 映射, 然后用双线性向上采样进行更新。我们将所有结果与 projectedF,andfinallyblendwitha1×1×D/4convolution 结合在一起。生成的上下文感知特征张量 C 的形状是 H/64×W/64×D/4 的。C 的维数比输入图像的维数低 48倍 (我们假设是 densenet-121, D尚 = 1024)。我们的 SPP 模块和 [22] 中提出的模块有两个区别。首先, 我们根据输入要素的长宽比调整网格: 无论输入图像的形状如何, 每个网格单元始终平均一个正方形区域。其次, 为了避免增加输出维数, 我们减少了池之前输入要素的维数。
4.3 上采样数据路径
上采样路径的作用是恢复由于向下采样而丢失的精细细节。建议的设计基于简约的transition-up (TU) 块。TU 块的目标是混合两个表示形式, 它们的空间分辨率相差2倍。较小的表示形式来自更新数据路径, 而较大的表示形式来自通过跳过连接的下采样数据路径。我们首先用双线性插值对较小的表示进行采样, 以便这两种表示具有相同的分辨率。随后, 我们投影到一个较低维空间的更大的表示显示特征图的描述。这平衡了两个数据路径的相对影响, 并允许通过简单求和将这两个表示混合。随后, 我们应用1x1 卷积来减小维数 (如果需要), 并以3x3 卷积为准备特征张量进行后续混合。混合过程是递归重复沿上采样数据路径与从每个密集块的输出到达的跳转连接。最终的过渡块产生对 DenseNet 干分辨率的日志。最后通过4×bilinear 上采样得到了对输入分辨率的密集预测。由于每个向上采样步骤只有一个3x3 卷积, 由于卷积较少, 内存占用量较低, 以及尺寸较小, 因此所述最小复杂设计得以快速执行。如第5节所述, 可以进一步减少主题足迹。与下采样数据路径相比, 所提出的更新数据路径的参数要少得多, 因此不愿意像实验中所说明的那样过度拟合低级纹理