常见的传统激活函数主要有两个:sigmoid和tanh。
首先说一下sigmoid函数。
它是使用范围最广的一类激活函数,具有指数函数形状,在物理上最接近神经元。它的输出范围在(0,1)之间,可以被表示成概率,或者用于数据的归一化。
但是它有两个严重的缺陷:
1. 软饱和性——导数 f'(x)=f(x)(1-f(x)),当x趋于无穷时,f(x)的两侧导数逐渐趋于0。
在后向传递时,sigmoid向下传递的梯度包含了一个f'(x)因子,因此,一旦落入饱和区f'(x)就变得接近于0,导致了向后传递的梯度也非常小。此时,网络参数很难得到有效训练,这种现象被称为梯度消失。一般在5层以内就会产生梯度消失的现象。
2. sigmoid函数的输出均大于0,这就使得输出不是0均值,这称为偏置现象。这将会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
然后是tanh函数。
tanh函数与sigmoid函数相比,输出均值为0,这就使得其收敛速度要比sigmoid快,从而可以减少迭代次数。
缺点就是同样具有软饱和性,会造成梯度消失。
针对sigmoid和tanh的饱和性,产生了ReLU函数。
ReLU全称为Rectified Linear Units,可以翻译成线性整流单元或者修正线性单元。
它在x>0时不存在饱和问题,从而使保持梯度不衰减,从而解决了梯度消失问题。这让我们能够直接以监督的方式训练深度神经网络,而无需依赖无监督的逐层预训练。然而,随着训练的推进,部分输入会落入硬饱和区,导致对应权重无法更新,这种现象称为“神经元死亡”
与sigmoid类似,ReLU的输出均值也大于0,所以偏移现象和神经元死亡共同影响网络的收敛性。
Leaky-ReLU
为了避免ReLU在x<0时的神经元死亡现象,添加了一个参数。
之后就是ELU函数。
它结合了sigmoid和ReLU函数,左侧软饱和,右侧无饱和。
右侧线性部分使得ELU能缓解梯度消失,而左侧软饱和能让对ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于0,所以收敛速度更快。
最后附上常见的几种激活函数的图像实现(运行结果已给出):
import matplotlib.pyplotas plt
import numpyas np
x = np.linspace(-10, 10, 60)
def elu(x, a):
y = []
for iin x:
if i >=0:
y.append(i)
else:
y.append(a * np.exp(i) -1)
return y
relu = np.maximum(x, [0] *60)
relu6 = np.minimum(np.maximum(x, [0] *60), [6] *60)
softplus = np.log(np.exp(x) +1)
elu = elu(x, 1)
softsign = x / (np.abs(x) +1)
sigmoid =1 / (1 + np.exp(-x))
tanh = np.tanh(x)
lrelu = np.maximum(0.1 * x, x)
plt.figure()
plt.plot(x, relu6, label='relu6', linewidth=3.0)
plt.plot(x, relu, label='relu', color='black', linestyle='--', linewidth=2.0)
plt.plot(x, elu, label='elu', linewidth=2.0)
plt.plot(x, lrelu, label='lrelu', linewidth=1.0)
ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))
plt.legend(loc='best')
plt.figure()
plt.ylim((-1.2, 1.2))
plt.plot(x, softsign, label='softsign', linewidth=2.0)
plt.plot(x, sigmoid, label='sigmoid', linewidth=2.0)
plt.plot(x, tanh, label='tanh', linewidth=2.0)
plt.plot(x, softplus, label='softplus', linewidth=2.0)
# plt.plot(x, hyperbolic_tangent,label='hyperbolic_tangent',linewidth=2.0)
ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))
plt.legend(loc='best')
plt.show()