深度学习常用概念总结（一）

在总结具体的深度算法模型之前，我打算先梳理一下深度学习中常用的概念。
在梳理和写作过程中，会尽量配合公式和图形，解释的更加简单明了。但为了避免内容过于冗长，不作过多的基础的概念介绍和解释。
总之，本文主要目的总结知识点，构建整体框架认知，部分细节仍需花费时间阅读更多材料。
针对错误或不完整之处，会作不定期更新。

主要内容：

激活函数（Activation Functions）

反向传播(Backpropagation)

学习速率(Learning Rate)

最优化(Optimization)

参数初始化(Weight Initialization)

激活函数（Activation Functions）

为什么要用激活函数？

激活函数都是非线性函数，用来对输入作非线性变换，使模型增加非线性区分能力

如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。
使用后，激活函数给网络层注入了非线性因素，使得网络可以任意逼近任何非线性函数，这样网络就可以模拟非线性模型。

1. Sigmoid

sigmoid可以将一个实数映射到(0,1)区间，拥有很强的解释能力，可以用来做二分类。

缺点：
1.sigmoid容易发生过饱和、丢失梯度

2.sigmoid的输出不是零中心，梯度下降时抖动比较厉害

2.Tanh

取值范围为[-1,1]

tanh在特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果。

tanh 是零均值的，梯度下降事的性能优于sigmoid

3.Softmax

加入有多个选项a, b, c, ...,那么max函数会选取出现概率最大的一个，softmax不同之处在于，出现概率小的选项也有一定概率取到。

示意图：

4.ReLU

输入信号 <0 时，输出都是0，>0 的情况下，输出等于输入。衍生而出的激活函数有leaky ReLU, Parametric ReLU.ReLU是Maxout的一个特例。

优点：
1.使用 ReLU 得到的 SGD 的收敛速度会比 sigmoid/tanh 快很多。

2.能有效防止饱和现象。

3.Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

缺点：
训练时神经元容易'die'，一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了。如果这个情况发生了，那么这个神经元的梯度就永远都会是0

实际操作中，如果learning rate 很大，那么很有可能网络中的40%的神经元都”dead”了。

当然，如果设置了一个合适的较小的learning rate，这个问题发生的情况其实也不会太频繁。

5.Binary

6.SoftPlus

7.Maxout

Maxout网络中，激活函数可以为任意分段函数，分段的数量取决于元素的个数。

反向传播(Backpropagation)

介绍：一种高效计算神经网络中权重梯度的算法。它从输出端开始，根据链式法则递归地向前计算梯度，一直到网络的输出端。

神经网络应用梯度下降法调优时，会涉及大量的梯度计算，如果用前向传播算法，会引起大量的权重梯度重复计算，而反向传播法，每个权重梯度只需计算一次。

关于复合函数链式法则，举两个例子：

image.png

学习速率(Learning Rate)

最小化损失函数时，需要沿着梯度的反方向更新权重，而学习速率正是描述更新的步伐的大小，如果步伐过大，可能导致“纠正过度”，反而增大误差损失；如果步伐过小，会导致收敛过慢。

如何合理的设定学习速率呢？

1.训练过程中，当验证误差不再下降时，令学习速率除以2

2.训练过程中，每隔一个或几个epoch，令学习速率以1/t的速度衰减，t是当前epoch数。

3.使用AdaGrad自动调节学习速率

给不同参数赋予不同学习速率

AdaGrad算法按照参数的历史梯度平方和的平方根的倒数来收缩学习率。

具有较大偏导的参数相应地有一个快速下降的学习率，而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。

AdaGrad算法倾向于给很少出现的特征更多的权重，因为这些权重更新的频率较低，从而累积的平方梯度较小。

算法流程和公式：

最优化(Optimization)

批量梯度下降法(Batch Gradient Descent)

是用来寻找函数最小值的一阶迭代最优算法。用梯度下降法时，先计算所在点的梯度，再使现有点朝着梯度的反方向移动一小段距离，不断迭代该过程，就能寻找到函数的局部最小值。梯度下降法每次更新参数时都会遍历所有样本数据。

随机梯度下降法(Stochastic Gradient Descent)

随机梯度下降法每次从训练数据中抽取一个样本进行更新，迭代次数很快，但会增加很多迭代次数，而且每次选取的方向不一定正确。

小批量梯度下降(Mini-batch Stochastic Gradient Descent)

批量梯度下降法综合了前两种方法的优势，每次选取少量样本(通常2~100个样本)进行更新，这样，既能增加迭代速度，又能使每次迭代的方向更加准确。

动量(Momentum)

如图，梯度下降法常常会陷入局部最小化，而动量正是解决该问题的一种方法。并且动量法可以加速学习。适合处理高曲率、小但一致的梯度，或是带噪声的梯度等。

更新动量的计算公式：

𝑣代表参数在参数空间的移动速度和方向。超参数𝛼决定了𝑣指数级衰减的速度，𝛼的取值一般为0.5，0.9或0.99等。后一项是参数𝜖乘以当前梯度，它负责给动量𝑣一定程度的调整：一方面，若当前梯度方向与速度𝑣方向一致， 𝑣增大，若当前梯度方向与速度𝑣方向相反， 𝑣减小；另一方面，随着梯度下降到后期，𝜖项的重要性大于𝛼项。

形象来说，当小球沿着误差超平面下滑时，首先，由于小球速度方向和所受合力方向一致，使得下降较快，当到达某一局部最小值的时候，受惯性影响，小球仍会朝着原有方向移动一段距离，从而有可能到达谷底。需要注意的是，动量法不保证达到全局最优，但是至少增大了到达全局最优的机会。

动量使得参数在梯度方向一致的维度上获得较大更新，在梯度方向改变的方向上获得较小更新。相比SGD，可以减少参数更新过程中代价函数的波动，获得更快的收敛速度。

参数初始化(Weight Initialization)

1.全部初始化为0

在理想情况下，数据被标准化，我们可以合理的假设一半的参数大于0，一半的参数小于0. 从期望角度，参数平均值的最佳估计为0，所以将所有的的参数初始化为0听上去是是个不错的想法。但是，这会导致一个后果，每个单元都会输出相同的结果，同理，在反向传播计算中，也会得到完全相同的梯度。换句话说，如果所有单元的权重都一样，那么输出就不会产生有区分能力的差异化信息。

2.用小的随机数初始化权重

这种方法下，会随机产生一批接近于0的随机数作为参数初始值。它具有以下优势：因为权重大小都接近0，因此大致符合理想情况下，参数平均值为0的假设；开始时，单元的权重都是随机的并且不会重复，所以每个单元的权重都会的到相应的更新，为降低整体误差作贡献。

初始的随机数可能由均值为0，标准差为1的正态分布产生，也可以由0到1上的均匀分布产生，这对最后模型的表现影响甚微，因此不必太过在意。

3.方差校准

随机初始化权重也会伴随着一个问题，单元的方差会随着输入维度的增加而不断增长。解决该问题的方法是，在第二步的基础上，用权重向量除以输入个数的平方根：

这样，输出单元的期望方差全部被控制为1。这种做法保证了，开始时网络中所有的输出单元都有着几乎相同的分布，经验上提升了网络的收敛率。

深度学习常用概念总结（一）

主要内容：

激活函数（Activation Functions）

反向传播(Backpropagation)

学习速率(Learning Rate)

最优化(Optimization)

参数初始化(Weight Initialization)

激活函数（Activation Functions）

为什么要用激活函数？

1. Sigmoid

2.Tanh

3.Softmax

4.ReLU

5.Binary

6.SoftPlus

7.Maxout

反向传播(Backpropagation)

学习速率(Learning Rate)

如何合理的设定学习速率呢？

1.训练过程中，当验证误差不再下降时，令学习速率除以2

2.训练过程中，每隔一个或几个epoch，令学习速率以1/t的速度衰减，t是当前epoch数。

3.使用AdaGrad自动调节学习速率

最优化(Optimization)

批量梯度下降法(Batch Gradient Descent)

随机梯度下降法(Stochastic Gradient Descent)

小批量梯度下降(Mini-batch Stochastic Gradient Descent)

动量(Momentum)

参数初始化(Weight Initialization)

1.全部初始化为0

2.用小的随机数初始化权重

3.方差校准

推荐阅读更多精彩内容