Spatial Transformer Networks
尽管CNN网络定义了许多强而有力的模型,但是它仍被限制于缺乏对输入数据空间上不变性的有效计算。本文介绍了一个新的可学习模块,空间转换器,该模块显著地增加了网络中数据的可操作性。该模块可以植入到现有的卷积体系中,使神经网络具备了空间上转换特征映射的能力。
虽然采用池化操作使得CNN对特征的形变和尺度变化具有一定的鲁棒性,但也使得其受限于深层次的网络,并对中间层的特征并非不变的。CNN的这种限制是由于只有一个有限的,预定义的池化机制来处理数据空间排列的变化。
本文介绍了一种基于神经网络架构的三维空间变换模块,于接受域是固定且局部的池化层不同,空间转换器模块是一种动态的机制,它可以通过为每个输入样本生成适当的转换来主动地进行空间转换,然后在整个feature map上执行转换,包括缩放、裁剪、旋转以及刚性变形等。这使得包含空间转换器的网络不仅可以选择最相关的区域,而且还可以将其转化为规范、预期的姿态,从而简化后续层的识别。
利用空间转化网络作为全连通网络的第一层,对畸变的MINIST数字进行分类的效果如下:
图中(a)是对网络输入带有缩放、旋转或夹杂噪声的数字图像;(b)空间转换器中的定位网络对数字进行预测转换;(c)空间转换器转换后输出的结果;(d)后续网络识别的结果。
空间转换器网络包括三个部分:
1 Localisation Network :
以的feature map作为输入,以变换矩阵的元素作为输出的网络结构,变换矩阵可以为任意形式,对于仿射变换矩阵而言,为一个6参数矩阵。网络可以是以回归层为终止的多种网络结构,可以采用全连接结构也可以采用卷积结构。
2 ParameterisedSamplingGrid :
根据Localisation Network的参数,我们对一个一般的feature map产生一个特定的变换后的grid(通过逆变换)。通过仿射变换:
同时将输入的横纵坐标范围和输出的横纵左边范围归一化为[-1,+1]。由此对图像进行裁剪、平移、旋转、拉伸及扭曲形成输出的feture map。
3 DifferentiableImageSampling :在获得相应的grid和变换矩阵后,需要对原featrue map进行采样从而得到新的feature map.
通过变换矩阵相关的采样核:
将原feature map映射到新feature map中,如双线性插值:
对其求梯度:
通过以上三个结构,就形成了一个空间变换器。该结构可以被放在卷积网络的任意位置,通过训练学习如何得到最有效的变换方式。