几种常见的激活函数

常见的传统激活函数主要有两个：sigmoid和tanh。

代码运行figure1

首先说一下sigmoid函数。

sigmoid函数

它是使用范围最广的一类激活函数，具有指数函数形状，在物理上最接近神经元。它的输出范围在（0,1）之间，可以被表示成概率，或者用于数据的归一化。

但是它有两个严重的缺陷：

1. 软饱和性——导数 f'(x)=f(x)(1-f(x))，当x趋于无穷时，f(x)的两侧导数逐渐趋于0。

在后向传递时，sigmoid向下传递的梯度包含了一个f'(x)因子，因此，一旦落入饱和区f'(x)就变得接近于0，导致了向后传递的梯度也非常小。此时，网络参数很难得到有效训练，这种现象被称为梯度消失。一般在5层以内就会产生梯度消失的现象。

2. sigmoid函数的输出均大于0，这就使得输出不是0均值，这称为偏置现象。这将会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。

然后是tanh函数。

tanh函数

tanh函数与sigmoid函数相比，输出均值为0，这就使得其收敛速度要比sigmoid快，从而可以减少迭代次数。

缺点就是同样具有软饱和性，会造成梯度消失。

针对sigmoid和tanh的饱和性，产生了ReLU函数。

ReLU函数

ReLU全称为Rectified Linear Units，可以翻译成线性整流单元或者修正线性单元。

它在x>0时不存在饱和问题，从而使保持梯度不衰减，从而解决了梯度消失问题。这让我们能够直接以监督的方式训练深度神经网络，而无需依赖无监督的逐层预训练。然而，随着训练的推进，部分输入会落入硬饱和区，导致对应权重无法更新，这种现象称为“神经元死亡”

与sigmoid类似，ReLU的输出均值也大于0，所以偏移现象和神经元死亡共同影响网络的收敛性。

Leaky-ReLU

Leaky-Relu函数

为了避免ReLU在x<0时的神经元死亡现象，添加了一个参数。

代码运行figure2

之后就是ELU函数。

ELU函数

它结合了sigmoid和ReLU函数，左侧软饱和，右侧无饱和。

右侧线性部分使得ELU能缓解梯度消失，而左侧软饱和能让对ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于0，所以收敛速度更快。

最后附上常见的几种激活函数的图像实现（运行结果已给出）：

import matplotlib.pyplotas plt

import numpyas np

x = np.linspace(-10, 10, 60)

def elu(x, a):

y = []

for iin x:

if i >=0:

y.append(i)

else:

y.append(a * np.exp(i) -1)

return y

relu = np.maximum(x, [0] *60)

relu6 = np.minimum(np.maximum(x, [0] *60), [6] *60)

softplus = np.log(np.exp(x) +1)

elu = elu(x, 1)

softsign = x / (np.abs(x) +1)

sigmoid =1 / (1 + np.exp(-x))

tanh = np.tanh(x)

lrelu = np.maximum(0.1 * x, x)

plt.figure()

plt.plot(x, relu6, label='relu6', linewidth=3.0)

plt.plot(x, relu, label='relu', color='black', linestyle='--', linewidth=2.0)

plt.plot(x, elu, label='elu', linewidth=2.0)

plt.plot(x, lrelu, label='lrelu', linewidth=1.0)

ax = plt.gca()

ax.spines['right'].set_color('none')

ax.spines['top'].set_color('none')

ax.xaxis.set_ticks_position('bottom')

ax.spines['bottom'].set_position(('data', 0))

ax.yaxis.set_ticks_position('left')

ax.spines['left'].set_position(('data', 0))

plt.legend(loc='best')

plt.figure()

plt.ylim((-1.2, 1.2))

plt.plot(x, softsign, label='softsign', linewidth=2.0)

plt.plot(x, sigmoid, label='sigmoid', linewidth=2.0)

plt.plot(x, tanh, label='tanh', linewidth=2.0)

plt.plot(x, softplus, label='softplus', linewidth=2.0)

# plt.plot(x, hyperbolic_tangent,label='hyperbolic_tangent',linewidth=2.0)

ax = plt.gca()

ax.spines['right'].set_color('none')

ax.spines['top'].set_color('none')

ax.xaxis.set_ticks_position('bottom')

ax.spines['bottom'].set_position(('data', 0))

ax.yaxis.set_ticks_position('left')

ax.spines['left'].set_position(('data', 0))

plt.legend(loc='best')

plt.show()

几种常见的激活函数

几种常见的激活函数

首先说一下sigmoid函数。

然后是tanh函数。

针对sigmoid和tanh的饱和性，产生了ReLU函数。

Leaky-ReLU

之后就是ELU函数。

参考文献：深度学习笔记(三)：激活函数和损失函数

推荐阅读更多精彩内容