几种常见的激活函数


    常见的传统激活函数主要有两个:sigmoid和tanh。


代码运行figure1

首先说一下sigmoid函数。

sigmoid函数

    它是使用范围最广的一类激活函数,具有指数函数形状,在物理上最接近神经元。它的输出范围在(0,1)之间,可以被表示成概率,或者用于数据的归一化。

但是它有两个严重的缺陷:

       1. 软饱和性——导数 f'(x)=f(x)(1-f(x)),当x趋于无穷时,f(x)的两侧导数逐渐趋于0。

       在后向传递时,sigmoid向下传递的梯度包含了一个f'(x)因子,因此,一旦落入饱和区f'(x)就变得接近于0,导致了向后传递的梯度也非常小。此时,网络参数很难得到有效训练,这种现象被称为梯度消失。一般在5层以内就会产生梯度消失的现象。

        2. sigmoid函数的输出均大于0,这就使得输出不是0均值,这称为偏置现象。这将会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。

然后是tanh函数。


tanh函数

    tanh函数与sigmoid函数相比,输出均值为0,这就使得其收敛速度要比sigmoid快,从而可以减少迭代次数。

    缺点就是同样具有软饱和性,会造成梯度消失。

针对sigmoid和tanh的饱和性,产生了ReLU函数。


ReLU函数

    ReLU全称为Rectified Linear Units,可以翻译成线性整流单元或者修正线性单元。

    它在x>0时不存在饱和问题,从而使保持梯度不衰减,从而解决了梯度消失问题。这让我们能够直接以监督的方式训练深度神经网络,而无需依赖无监督的逐层预训练。然而,随着训练的推进,部分输入会落入硬饱和区,导致对应权重无法更新,这种现象称为“神经元死亡”

    与sigmoid类似,ReLU的输出均值也大于0,所以偏移现象和神经元死亡共同影响网络的收敛性。

Leaky-ReLU


Leaky-Relu函数

    为了避免ReLU在x<0时的神经元死亡现象,添加了一个参数。

代码运行figure2

之后就是ELU函数。


ELU函数

它结合了sigmoid和ReLU函数,左侧软饱和,右侧无饱和。

    右侧线性部分使得ELU能缓解梯度消失,而左侧软饱和能让对ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于0,所以收敛速度更快。

最后附上常见的几种激活函数的图像实现(运行结果已给出):

import matplotlib.pyplotas plt


import numpyas np


x = np.linspace(-10, 10, 60)


def elu(x, a):


y = []


for iin x:


if i >=0:


y.append(i)


else:


y.append(a * np.exp(i) -1)


return y


relu = np.maximum(x, [0] *60)


relu6 = np.minimum(np.maximum(x, [0] *60), [6] *60)


softplus = np.log(np.exp(x) +1)


elu = elu(x, 1)


softsign = x / (np.abs(x) +1)


sigmoid =1 / (1 + np.exp(-x))


tanh = np.tanh(x)


lrelu = np.maximum(0.1 * x, x)


plt.figure()


plt.plot(x, relu6, label='relu6', linewidth=3.0)


plt.plot(x, relu, label='relu', color='black', linestyle='--', linewidth=2.0)


plt.plot(x, elu, label='elu', linewidth=2.0)


plt.plot(x, lrelu, label='lrelu', linewidth=1.0)


ax = plt.gca()


ax.spines['right'].set_color('none')


ax.spines['top'].set_color('none')


ax.xaxis.set_ticks_position('bottom')


ax.spines['bottom'].set_position(('data', 0))


ax.yaxis.set_ticks_position('left')


ax.spines['left'].set_position(('data', 0))


plt.legend(loc='best')


plt.figure()


plt.ylim((-1.2, 1.2))


plt.plot(x, softsign, label='softsign', linewidth=2.0)


plt.plot(x, sigmoid, label='sigmoid', linewidth=2.0)


plt.plot(x, tanh, label='tanh', linewidth=2.0)


plt.plot(x, softplus, label='softplus', linewidth=2.0)


# plt.plot(x, hyperbolic_tangent,label='hyperbolic_tangent',linewidth=2.0)


ax = plt.gca()


ax.spines['right'].set_color('none')


ax.spines['top'].set_color('none')


ax.xaxis.set_ticks_position('bottom')


ax.spines['bottom'].set_position(('data', 0))


ax.yaxis.set_ticks_position('left')


ax.spines['left'].set_position(('data', 0))


plt.legend(loc='best')


plt.show()




参考文献:深度学习笔记(三):激活函数和损失函数

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容