激活函数 - 简书

各种activation functions的pro/con。

参考：https://blog.csdn.net/qq_30815237/article/details/86700680

非线性激活函数能够使神经网络逼近任意复杂的函数。如果没有激活函数引入的非线性，多层神经网络就相当于单层的神经网络
sigmoid

sigmoid

缺点是：

1、梯度消失：sigmoid函数在0和1附近是平坦的。也就是说，sigmoid的梯度在0和1附近为0。在通过sigmoid函数网络反向传播时，当神经元的输出近似于0和1时它的梯度接近于0。这些神经元被称为饱和神经元。因此，这些神经元的权值无法更新。不仅如此，与这些神经元相连接的神经元的权值也更新得非常缓慢。这个问题也被称为梯度消失。所以，想象如果有一个大型网络包含有许多处于饱和动态的sigmoid激活函数的神经元，那么网络将会无法进行反向传播。
2、不是零均值：sigmoid的输出不是零均值的。
3、计算量太大：指数函数与其它非线性激活函数相比计算量太大了。下一个要讨论的是解决了sigmoid中零均值问题的非线性激活函数。

Sigmoid 和 Softmax 区别：

sigmoid将一个real value映射到（0,1）的区间，用来做二分类。而 softmax 把一个 k 维的real value向量（a1,a2,a3,a4….）映射成一个（b1,b2,b3,b4….）其中 bi 是一个 0～1 的常数，输出神经元之和为 1.0，所以相当于概率值，然后可以根据 bi 的概率大小来进行多分类的任务。二分类问题时 sigmoid 和 softmax 是一样的，求的都是 cross entropy loss，而 softmax 可以用于多分类问题多个logistic回归通过叠加也同样可以实现多分类的效果，但是 softmax回归进行的多分类，类与类之间是互斥的，即一个输入只能被归为一类；多个logistic回归进行多分类，输出的类别并不是互斥的，即"苹果"这个词语既属于"水果"类也属于"3C"类别。

tanh

tanh

在实际运用中，tanh比sigmoid更好。这主要是因为Sigmoid函数在输入处于[-1,1]之间时，函数值变化敏感，一旦接近或者超出区间就失去敏感性，处于饱和状态，影响神经网络预测的精度值。而tanh的输出和输入能够保持非线性单调上升和下降关系，符合BP网络的梯度求解，容错性好，有界，渐进于0、1，符合人脑神经饱和的规律，与 sigmoid 的区别是，tanh 是 0 均值的，因此实际应用中 tanh 会比 sigmoid 更好。

Tanh唯一的缺点是：tanh函数也存在着梯度消失的问题，因此在饱和时会导致梯度消失。为了解决梯度消失问题，让我们讨论另一个被称为线性整流函数（ReLU）的非线性激活函数，它比我们之前讨论的两个激活函数都更好，并且也是在今天应用最为广泛的激活函数。

ReLU

ReLU

这意味着，当输入z<0时，输出为0。当输入z>0时，输出就是输入z的值。这个激活函数能够使网络更快的收敛。没有饱和意味着至少在正数范围内,能够对梯度消失有抵抗能力，所以神经元至少在一半的输入范围内不会反向传播，全部都是0的结果。ReLU在计算上非常有效率，因为它是使用简单的阈值实现的。

用形式化的语言来说，所谓****非线性，就是一阶导数不为常数。ReLu的定义是max(0, x)，因此，ReLU的导数为：

image

显然，ReLU的导数不是常数，所以ReLU是非线性的。Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

1、ReLu虽然在大于0的区间是线性的，在小于等于0的部分也是线性的，但是它整体不是线性的，因为不是一条直线，所以Relu函数是非线性函数。也就是说，线性和非线性都是就函数的整体而言的。用术语来说，线性、非线性是就函数的整个定义域而言的。这就意味着无论我们堆多少层网络，如果这些层都使用线性激活函数，那这些层最终等效于一层！那这样的模型的表达能力就很有限了。多个线性操作的组合也是一个线性操作，没有非线性激活，就相当于只有一个超平面去划分空间。

ReLu是非线性的，效果类似于划分和折叠空间，组合多个（线性操作 + ReLu）就可以任意的划分空间。

image

2、对于浅层的机器学习，比如经典的三层神经网络，用它作为激活函数的话，那表现出来的性质肯定是线性的。但是在深度学习里，少则几十，多则上千的隐藏层，虽然，单独的隐藏层是线性的，但是很多的隐藏层表现出来的就是非线性的。举个简单的例子，一条曲线无限分段，每段就趋向直线，反过来，很多这样的直线就可以拟合曲线。类似，大规模的神经网络，包含很多这样的线性基本组件，自然也可以拟合复杂的非线性情况。Relu通过构造很多的线形空间（类似于折叠的方式），逼近非线性方程。

但是Relu神经元有几个缺点：

因为其将所有的输入负数变为0，在训练中可能很脆弱，很容易导致神经元失活，使其不会在任何数据点上再次激活。简单地说，ReLu可能导致神经元死亡。
对于ReLu中(x<0)的激活，此时梯度为0，因此在下降过程中权重不会被调整。这意味着进入这种状态的神经元将停止对错误/输入的变化做出反应(仅仅因为梯度为0，没有任何变化)。这就是所谓的dying ReLu problem.

平时使用的时候RELU的缺点并不是特别明显，只有在学习率设置不恰当(较大)的时候，会加快神经网络中神经元的“死亡”。

为了解决relu激活函数在x<0时的梯度消失问题，提出了Leaky Relu

leaky ReLU

leaky ReLU

Leaky relu的思想就是当x<0时，会有个很小0.1的正斜率α,这是一个超参数，可调。这个函数多少消除了relu的消亡问题，但是它的结果并不一致。虽然它具有relu激活函数的所有特征，例如：计算效率高、收敛速度快、在正区域不饱和等。它的思想可以进一步的扩展。如用一个常数项代替乘以x，从而使我们能够将这个常数项乘以一个能够使leaky relu更好工作的超参数。这个leaky relu的拓展被称为parametric relu(参数relu)。

pReLU

image.png

PRelu的函数为：

image

其中α为超参数。PRelu的思想是引进任意超参数α ，而这个α可以通过反向传播学习（注意PRelu与leaky relu的区别，前者是学习得到，后者是我们认为设定）。这赋予了神经元在负区域内选择最好斜率的能力，因此，他们可以变成单纯的ReLU激活函数或者Leaky ReLU激活函数。如果α=0，那么 PReLU 退化为ReLU；如果α是一个很小的固定值（如α =0.01），则 PReLU 退化为 Leaky ReLU（LReLU）。

(1) PReLU只增加了极少量的参数，也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的，当不同channels使用相同的ai时，参数就更少了。
(2) BP更新ai时，采用的是带动量的更新方式：

image

上式的两个系数分别是动量和学习率。需要特别注意的是：更新ai时不施加权重衰减(L2正则化)，因为这会把ai很大程度上push到0。事实上，即使不加正则化，试验中ai也很少有超过1的。
(3) 整个论文，ai被初始化为0.25。

总之，一般使用ReLU效果更好，但是你可以通过实验使用Leaky ReLU或者Parametric ReLU来观察它们是否能对你的问题给出最好的结果。

ELU

ELU

其中α是一个可调整的参数，它控制着ELU负值部分在何时饱和。右侧线性部分使得ELU能够缓解梯度消失，而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零，所以收敛速度更快
tensorflow中：tf.nn.elu(features, name=None)

SELU

SELU

经过该激活函数后使得样本分布自动归一化到0均值和单位方差(自归一化，保证训练过程中梯度不会爆炸或消失，效果比Batch Normalization 要好)
其实就是ELU乘了个lambda，关键在于这个lambda是大于1的。以前relu，prelu，elu这些激活函数，都是在负半轴坡度平缓，这样在activation的方差过大的时候可以让它减小，防止了梯度爆炸，但是正半轴坡度简单的设成了1。而selu的正半轴大于1，在方差过小的的时候可以让它增大，同时防止了梯度消失。这样激活函数就有一个不动点，网络深了以后每一层的输出都是均值为0方差为1。

comparison

swish

swish

swish公式

一般来说，swish激活函数的表现比relu更好。从图中我们可以观察到swish激活函数在x轴的负区域内末端的图像形状与relu激活函数是不同的，这是因为swich激活函数即使输入的值在增加，它的输出也可以减少。大部分的激活函数都是单调的，即他们的输出值在输入增加的时候是不会减少的。但Swish在0点具有单边有界性，平滑且不单调。