卷积神经网络—CNN

一、为什么需要CNN

在全连接神经网络中，每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时，这时全连接网络需要训练的参数就会增大很多，计算速度就会变得很慢，例如一张黑白的 28×28 的手写数字图片，输入层的神经元就有 784 个，如下图所示：

全连接

若在中间只使用一层 15 个神经元的隐藏层，那么参数 w 就有 784 × 15 = 11760 多个；若输入的是 28×28 带有颜色的 RGB 手写数字图片，那么参数 w 的个数还需要再乘以 3。这很容易看出使用全连接神经网络处理图像中的需要训练参数过多的问题。

而在卷积神经网络 (Convolutional Neural Network, CNN) 中，卷积层的神经元只与前一层的部分神经元节点相连，即它的神经元间的连接是非全连接的，且同一层中某些神经元之间的连接的权重 w 和偏移 b 是共享的（Shared Weights），这样大量地减少了需要训练参数的数量。

二、CNN的卷积层

在卷积层中有几个重要的概念：

1、卷积核

假设输入的是一个 28×28 的的二维神经元，我们定义5×5 的一个卷积核，即隐藏层的神经元与输入层的 5×5 个神经元相连，这个 5×5 的区域就称之为 Local Receptive Fields，如下图所示：

Local receptive fields

2、Shared weights（共享权值）

我们知道，隐藏层的每一个神经元都连接 5 × 5 个图像区域，也就是说每一个神经元存在 5 × 5 = 25 个连接权值参数。那如果对下一层的每个神经元来说，这 25 个参数是相同的呢？也就是说下一层的每个神经元用的是同一个卷积核去卷积图像。这样我们就只有多少个参数？只有 25 个参数啊！不管你隐层的神经元个数有多少，两层间的连接只有 25 个参数啊！这就是卷积神经网络的主打卖点。

但是，你就会想，这样提取特征也忒不靠谱吧，这样你只提取了一种特征啊？我们需要提取多种特征对不？

不同的卷积核可以提取图片中不同的特征，但一种卷积核只能提取图像的一种特征，为了能识别图片的不同特色，我们需要提取不同的特征，怎么办？

加多几种卷积核不就行了吗？对的。所以假设我们加到 100 种卷积核，每种卷积核的参数不一样，表示它提出输入图像的不同特征。这样每种卷积核去卷积图像就得到对图像的不同的特征，称之为 Feature Map。

所以 100 种卷积核就有 100 个 Feature Map。这 100 个 Feature Map 就组成了一层神经元。到这个时候明了了吧。我们这一层有多少个参数了？100 种卷积核 × 每种卷积核共享 25 个参数= 100 × 25 = 2500，也就是 2500 个参数。

需要注意的一点是，上面的讨论都没有考虑每个神经元的偏置部分。所以权值个数需要加1 。这个也是同一种滤波器共享的。因此在 CNN 的卷积层，我们需要训练的参数大大地减少到了 (5×5+1)×100=2600 个。

图片卷积

三、“卷积”操作

这个卷积操作背后的数学知识其实非常的简单。要计算一个卷积核和其在原图上对应的某一小块的结果，只需要简单地将两个小块内对应位置的像素值进行乘法运算，然后将整个小块内乘法运算的结果累加起来，最后再除以小块内像素点总个数即可。具体过程如下：

卷积操作

最后整张图算完，大概就像下面这个样子：

卷积完成

然后换用其它卷积核进行同样的操作，最后得到的结果就是这样了：

多卷积和

四、池化(Pooling)

当输入经过卷积层时，若卷积核比较小，步长 stride 也较小，则得到的 feature map（特征图）还是比较大，这时可以通过池化层来对每一个 feature map 进行降维操作，输出的深度还是不变的，依然为 feature map 的个数。

池化可以将一幅大的图像缩小，同时又保留其中的重要信息。池化背后的数学顶多也就是小学二年级水平。它就是将输入图像进行缩小，减少像素信息，只保留重要信息。

通常情况下，池化都是 2×2 大小，比如对于 max-pooling 来说，就是取输入图像中 2×2 大小的块中的最大值，作为结果的像素值，相当于将原始图像缩小了 4 倍。同理，对于 average-pooling 来说，就是取 2×2 大小块的平均值作为结果的像素值。

池化

所以，池化的实质就是把图片变模糊了，相当于给图片打了马赛克，如下图：

为什么需要池化操作？

当我们看一张图片时，关注的是图片整体，而不是图中的细节，所以即使打了马赛克，基本上还是能看出图片的大概内容，并且通过加入池化层，可以很大程度上减少计算量，增加计算速度，降低机器负载。

到现在为止，已经讲了从输入到池化的过程，图片也从原来的 28 × 28 变成了 12 × 12。

在这个过程中，图片被逐渐缩小，卷积提取的特征逐渐从局部变成了整体，而图片的厚度也就是特征越来越多，如下图

输入->卷积->池化

五、激活函数Relu (Rectified Linear Units)

这里，我们用Relu作为激活函数：

Relu激活函数

六、全连接层(Fully connected layers)

到这里，卷积神经网络基本介绍完毕，总结（敲黑板），卷积神经网络的目的就是降低网络复杂度，减少权值 W 和偏置值 b 的个数，它不是一个完整的网络，所以，在最后还须加入普通的神经网络（全连接层）。

卷积神经网络总体图

最后提取出来的特征，扔到由感知机组成的全连接神经网络中，做最后一次的分类，这些特征在感知激励通过损失函数进行反馈，经过成千上万甚至几百上千万次的不断尝试后，最终找到了每个特征的合适的权重组合。