神经网络
上一章学习了感知机,神经网络与多层感知机有着相似的结构,但是感知机设定权重的工作,还是由人工进行的,而神经网络的一个重要性质是它可以自动地从数据中学习到合适的权重参数。
神经网络分为三部分输入层,隐藏层,输出层,输入层为第0层,隐藏层为1-L-1层,输出层为L层。
那么,为什么输入层为0,而不是1呢,因为输入层并没有权重和偏移量。
而权重和偏移量正是我们通过神经网络最终要获取的重要参数。
激活函数(activation function)
我们在上一章学习的感知机会输出两个结果,非0即1,而y = wx+b应该是一条直线不会只有这两个结果,原因就是在原函数外边又嵌套了另一个函数,我们称为激活函数。激活函数是神经网络重要的组成部分,因为它可以将原函数的计算结果转换成下一个神经元可以理解的有效信息。
这样的函数称为“阶跃函数”。因此,可以说感知机中使用了阶跃函数作为激活函数。
而在神经网络中激活函数主要分为4种:
-
sigmoid activation function
在二分类的问题中,对于输出层,因为的值是0或1,所以想让的数值介于0和1之间,而不是在-1和+1之间。所以需要使用sigmoid激活函数。
-
Tanh activation function
tanh函数是sigmoid的向下平移和伸缩后的结果。对它进行了变形后,穿过了点,并且值域介于+1和-1之间。
结果表明,如果在隐藏层上使用,效果总是优于sigmoid函数。因为函数值域在-1和+1的激活函数,其均值是更接近零均值的。在训练一个算法模型时,如果使用tanh函数代替sigmoid函数中心化数据,使得数据的平均值更接近0而不是0.5.
3)Rectified Linear Unit (ReLU)&Leaky Relu
sigmoid函数和tanh函数两者共同的缺点是,在特别大或者特别小的情况下,导数的梯度或者函数的斜率会变得特别小,最后就会接近于0,导致降低梯度下降的速度。
在机器学习另一个很流行的函数是:修正线性单元的函数(ReLu),ReLu函数图像是如下图。
这是很多激活函数的默认选择,如果在隐藏层上不确定使用哪个激活函数,那么通常会使用Relu激活函数。有时,也会使用tanh激活函数,但Relu的一个优点是:当z是负值的时候,导数等于0。
这里也有另一个版本的Relu被称为Leaky Relu。
当z是负值时,这个函数的值不是等于0,而是轻微的倾斜,如图。
这个函数通常比Relu激活函数效果要好,尽管在实际中Leaky ReLu使用的并不多。
我们来分析一下这四个激活函数:
第一,在的区间变动很大的情况下,激活函数的导数或者激活函数的斜率都会远大于0,在程序实现就是一个if-else语句,而sigmoid函数需要进行浮点四则运算,在实践中,使用ReLu激活函数神经网络通常会比使用sigmoid或者tanh激活函数学习的更快。
第二,sigmoid和tanh函数的导数在正负饱和区的梯度都会接近于0,这会造成梯度消失,而Relu和Leaky ReLu函数大于0部分都为常数,不会产生梯度消失现象。(同时应该注意到的是,Relu进入负半区的时候,梯度为0,神经元此时不会训练,产生所谓的稀疏性,而Leaky ReLu不会有这问题)
在ReLu的梯度一半都是0,但是,有足够的隐藏层使得z值大于0,所以对大多数的训练数据来说学习过程仍然可以很快。
最后可以总结为:
sigmoid激活函数:除了输出层是一个二分类问题基本不会用它。
tanh激活函数:tanh是非常优秀的,几乎适合所有场合。
ReLu激活函数:最常用的默认函数,如果不确定用哪个激活函数,就使用ReLu或者Leaky ReLu。
我们可以发现激活函数全部都是非线性的,这就是为什么我们在上一章多层感知机可以处理非线性空间的原因。当单一神经元被激活函数激活,便不再是线性的了,相反如果不加激活函数,那么无论多少的神经元,最后的结果依然是线性的。
多维数组的计算
今天的最后一个部分是关于向量化的,其实神经网络的计算也可以用多重for循环搞定,但是作为一个程序猿深知多重for循环的痛,因为它太慢了,当数据量上到一定级别,它将成为性能的瓶颈。那么向量化就很好的解决了这一难题。我写了一个例子,向量化的速度大概是非向量化的300倍!!!
快这么多是因为CPU和GPU都有并行化的指令,他们有时候会叫做SIMD指令,这个代表了一个单独指令多维数据,它可以让python的充分利用并行化计算,相对来说,GPU更加擅长SIMD计算,这就是为什么在深度学习领域对显卡的要求特别高。
书中这部分内容实际是在帮我们复习线性代数的基础,向量化正是借助线性代数的概念实现的,所以线性代数在机器学领域是非常重要的。
值得注意的是:
一、在python中矩阵的乘法并不是用*表示的,而是要用np.dot实现。
二、注意矩阵的维度,矩阵和向量,计算结果完全不同。在编程的时候统一使用矩阵,防止出错