研究问题的引入:
基于语义分割的场景解析是计算机视觉的基本问题,它要求预测图片中每个像素的类别、位置以及形状,然而,复杂场景的场景解析一直是一个挑战。论文作者认为,目前主流的用于场景解析的FCN算法存在一个较大的问题,那就是没有充分利用global context,论文主要探讨了如何解决这个问题。
相关背景介绍:
1、FCN是一项开创性的变革,在FCN中,去掉了全连接层,使得端到端的训练成为可能,语义分割得到了极大的发展;之后空洞卷积的出现,扩大了感受野;使用coarse-to-fine的解卷积结构来学习分割掩膜。其余的方向主要集中在两个方面:一个是不同尺度的特征融合,在深度卷积网络中,深层的特征图包含了抽象的语义信息,但缺乏位置等空间信息,而浅层的特征图却包含了位置等信息;另一个方面是基于结构的预测,目前比较前沿的操作是利用条件随机场(CRF)来作为后处理操作,来对分割结果进行细化。这两方面都改善了对图片的定位能力,但对context的利用还是不足。
2、场景解析存在的相关问题:
1)Mismatched Relationship:对图片来说,context relationship是普遍存在的,然而,算法缺失对这种关系的判别能力是错分类的一个重要原因。
2)Confusion Categories:有些目标的外观十分相似,即使是人为标注也会出现错误,但这种错误可以通过类别之间的联系来解决。
3)Inconspicuous Classes:有些小目标虽然小,难以发现,但或许十分重要,而有些较大的目标却有可能超出网络的感受野,出现不连续的预测,为了解决这些问题,网络应该能注意到包含不显眼目标的子区域。
问题的解决:
1、金字塔池化模块:
在深度神经网络中,感受野的大小代表了我们利用context information的多少,而ResNet网络的感受野比理论上要小得多。目前一种比较有效的方式是融合不同感受野的子区域。为了减少context information的损失,论文提出了分层全局先验,使用了不同尺度不同子区域的信息,即金字塔池化模块,用于最后的全局先验构建。此模块分成了四个尺度,之后利用了1*1的卷积核进行降维,然后上采样恢复原来的大小并合并不同尺度的特征图。
2、网络结构:
论文使用了带有空洞卷积的残差网络,经过池化之后输入到金字塔池化模块中,最终连接合并特征图,经过卷积生出最终的预测结果。
3、基于FCN的ResNet深度监督策略:
ResNet增加深度的方法是使用了跳跃连接,将深度神经网络的训练变成了一个优化问题,而论文中却提出了一个截然相反的策略,其在支路上增加了一个辅助损失函数,用来优化学习过程。