第六章-神经网络的发展及其 TensorFlow 实现
6.1 卷积神经网络
卷积神经网络(CNN),它的权值共享(weight sharing)的网络结构显著降低了模型的复杂度,减少了权值的数量,是目前语音分析和图像识别领域研究热点。卷积神经网络
可以直接将图片作为网络的输入,自动提取特征,并且对图片的变形(如平移、比例缩放、倾斜)等具有高度不变形。
神经网络(neural networks, NN)的基本组成包括输入层、隐藏层、输出层。卷积神经网络的特点在于隐藏层分为卷积层和池化层(pooling layer,又叫下采样层)。卷积层通过一块块卷积核(conventional kernel)在原始图像上平移来提取特征,每一个特征就是一个特征映射;而池化层通过汇聚特征后稀疏参数来减少要学习的参数,降低网络的复杂度,池化层最常见的包括最大值池化(max pooling)和平均值池化(average pooling)。
卷积核在提取特征映射时的动作称为 padding,其有两种方式,即 SAME 和 VALID。由于移动步长(Stride)不一定能整除整张图的像素宽度,我们把不越过边缘取样称为 Valid Padding,取样的面积小于输入图像的像素宽度;越过边缘取样称为 Same Padding,取样的面积和输入图像的像素宽度一致。
6.2 卷积神经网络的发展
第一个卷积神经网络模型 LeCun 诞生于 1989 年,其发明人是 LeCun。1998 年 LeCun 提出了 LeNet,但随后卷积神经网络的锋芒逐渐被 SVM 等手工设计的特征的分类器盖过。随着 ReLU 和 Dropout 的提出,以及 GPU 和大数据带来的历史机遇,卷积神经网络在 2012 年迎来了历史性突破—AlexNet。AlexNet 之后卷积神经网络的演化过程主要有 4 个方向的演化:一个是网络加深,二是增强卷积层的功能,三是从分类任务到检测任务,四是增加新的功能模块。
6.3使用tensorflow构建一个AlexNet
关于LRN的计算公式和tensorflow中的对应公式看不懂
TensorFlow 的模型都位于 https://github.com/tensorflow/models。正如 5.2 节中介绍的,这个目录中有很多图像和语音处理的模型,可以直接拿来用。这些模型的检查点文件(参参 4.8.1节 ckpt 模型文件的保存)有的被打成压缩包,可以直接下载,当作预训练模型使用.