本文作者专注于AI进阶算法,正在推出AI疯狂进阶之基础理论进阶篇,如有兴趣可持续关注我。
核心导读:
1. 神经网络感受野是什么?
2. 感受野的分布是啥样子的?
3. 感受野是不是越大越好?
4. 多路感受野融合提高精度?
5. 如何计算神经网络感受野?
1. 神经网络感受野是什么?
在卷积神经网络中,感受野是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小。神经元感受野之外的图像内容并不会对该神经元的值产生影响,所以必须确保这个神经元的感受野覆盖所有相关的图像区域。在应用工程中,通过调节网络的深度,卷积的kernel size等参数控制网络的感受野大小 。感受野的概念尤为重要,对于理解和诊断CNN网络有着极大的帮助。本文对感受野相关的问题进行了总结,下面一一阐述:
2.感受野的分布是啥样子的?
《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》论文中引出了theoretical receptive field (理论感受野)和Effective Receptive Fields(实际感受野)这2个概念。通常实际感受野小于理论感受野,随着具体的任务变化。作者进一步在数学上证明了 Effective Receptive Fields 在 1D 是一个高斯分布,随后推出 2D/大于2D的情况都是近似高斯分布,如下图所示。
3.感受野是不是越大越好?
我们需要关注网络的感受野是否足够,例如在需要检测或者识别图片中大目标的时候。但这并不意味着感受野越大越好,在某些场景中过大的感受野甚至会降低模型的性能,例如《The Receptive Field as a Regularizer in Deep Convolutional Neural Networks for Acoustic Scene Classification》论文通过1*1 Conv替换3*3Conv缩小ResNet和DenseNet等网络的感受野在ASC场景获取了比原始模型更高的精度;《Gated Recurrent Convolution Neural Network for OCR 》论文提出了GRCL 结构来限制无效感受野,提高了STR的识别精度,下图展示了改进后特征响应图,可以看出RCNN能强化文字上的响应,减弱无效背景的响应。
4.多路感受野融合提高精度?
Inception网络提出多路卷积融合的思路,实际是在同一个尺度上多种感受野信息的融合,主要是为了解决图像大小分布差异较大的问题。《MixNet: Mixed Depthwise Convolutional Kernels》Google Brain最近提出Mixed Depthwise Convolution,类似Inception的单元结构,以此来提高网络表达能力。Google Brain在MobilenetV2的基础上用MDConv替换3*3 Depthwise Conv进行了多组实验,在大多数情况下都取得了更好的效果,接着在Imagenet上用Auto ML搜索出MixNet-L,取得了78.9%的top-1分类精度,同时FLOPs小于600M,超过Resnet153。
5.感受野如何计算?
感受野的计算方式有两种,下面给出其中一个计算公式和计算示例
6.小结
感受野作为神经网络隐藏的重要特性还有很多需要发掘的地方,在实际的工程项目中我们需要考虑这一块的影响,细节往往决定成败,与其沉迷在研究高大上的算法架构,真不如沉下心把一些基础性的研究工作做透彻。
如需转载,请注明出处。