1. 卷积层
(1)作用:提取图像特征,也称作“特征训练分类器”。
2. 池化层
(1)作用:采样,减小图像尺寸,减少训练参数,减轻模型过拟合程度。
(2)Max-Pooling和Mean-Pooling两种
(3)重叠池化(Overlapping Pooling):strides < ksize
3. 激活函数
(1)作用:将卷积后得到的值限制在指定范围内。
(2)函数形式
(a)sigmoid:f(x)=1/(1+exp(-x)) 值域为(0,1)
(b)tanh: f(x)=[exp(2x)-1]/[exp(2x)+1] 值域为(-1,1)
(c) 近似生物神经激活函数 ReLU(Rectified Linear Units): f(x)=max(0,x) 值域为[0,∞)
(d)近似生物神经激活函数Softplus:f(x)=log[1+exp(x)]
(3)后面两个函数对比Sigmoid函数好在三点:①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性(重点,可以看到红框里前端状态完全没有激活)
4.局部响应归一化(LRN:Local Response Normalization)
(1)作用:激活的神经单元会抑制临近神经元。
5. DropOut
(1)作用:以一定的概率暂时丢弃神经元,使其不参与前向传播与反向传播,可减轻过拟合,加快计算速度,减少参数。
(2)工作特点:dropout在训练时会随机将部分节点的输出改为0。
(3)工作方式:dropout一般只在全连接层而不再卷积或池化层使用。
AlexNet与LeNet除了层数之外设计不同的是,AlexNet还运用ReLU激活函数,局部反应归一化,重叠池化(overlapping Pooling)
6. 知识拓展
(1)Top-5错误率
对一个图片,如果分类概率前五中包含正确答案,才认为正确。
(2)Top-1错误率
对一个图片,如果分类概率最大的是正确答案,才认为正确。
7. 泛化能力
深度神经网络往往带有大量的参数,但依然表现出很强的泛化能力(指训练好的模型在未见过的数据上的表现)。
泛化能力:指训练好的模型在未见过的数据上的表现能力。良好泛化能力的网络在输入数据与训练数据稍有不同时也能得到比较好的结果
8. 正则化
(1)定义:深度学习中用以减小测试误差,但可能会增加训练误差的策略称为正则化。
(2)作用:避免过拟合
(3)方式:正则化项加在了成本函数中,而且只在全连接层的权重需要加入正则化
(a)L1正则项
α||w||即为L1正则化项
(b)L2正则项
(c)目前许多正规化方法,如神经网络、线性回归、logistic回归通过在目标函数J上加一个参数规范惩罚项 Ω(θ)公式如下:
9. 过拟合
(1)定义:指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。
(2)具体表现:最终模型在训练集上效果好,但是在测试集上效果差,模型泛化能力弱。
(3)解决原因:我们无法穷尽所有状态,不可能将所有情况都包含在训练集上
(4)解决办法:
(a)获取更多数据。①数据增强;②采集更多数据;
(b)使用合适的模型
(一)网络结构 Architecture
(二)训练时间 Early stopping
(三)限制权值 Weight-decay,也叫正则化(regularization)
(四)增加噪声 Noise。在输入中加噪声;在权值上加噪声;对网络的响应加噪声
(c)结合多种模型
(一)Bagging
(二)Boosting
(三)Dropout
(d)贝叶斯方法
10. Softmax函数
(1)定义:在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维的向量Z “压缩”到另一个K维实向量 f(Z) 中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数的形式通常按下面的式子给出:
(2)通俗的讲解:
参考:
[1] 星小环的AI读书会—深度学习系列08经典卷积神经网络LeNet&AlexNet,https://zhuanlan.zhihu.com/p/31435647
[2] 深度学习:正则化,http://shartoo.github.io/regularization-deeplearning/
[3] ReLu(Rectified Linear Units)激活函数,http://www.cnblogs.com/neopenx/p/4453161.html
[4] 机器学习中用来防止过拟合的方法有哪些?https://www.zhihu.com/question/59201590