鱼书学习笔记二神经网络(neural network)

神经网络

上一章学习了感知机,神经网络与多层感知机有着相似的结构,但是感知机设定权重的工作,还是由人工进行的,而神经网络的一个重要性质是它可以自动地从数据中学习到合适的权重参数。


019.png

神经网络分为三部分输入层,隐藏层,输出层,输入层为第0层,隐藏层为1-L-1层,输出层为L层。
那么,为什么输入层为0,而不是1呢,因为输入层并没有权重和偏移量。
而权重和偏移量正是我们通过神经网络最终要获取的重要参数。

激活函数(activation function)

我们在上一章学习的感知机会输出两个结果,非0即1,而y = wx+b应该是一条直线不会只有这两个结果,原因就是在原函数外边又嵌套了另一个函数,我们称为激活函数。激活函数是神经网络重要的组成部分,因为它可以将原函数的计算结果转换成下一个神经元可以理解的有效信息。


激活函数

感知机的激活函数
186.png

这样的函数称为“阶跃函数”。因此,可以说感知机中使用了阶跃函数作为激活函数。
而在神经网络中激活函数主要分为4种:

  1. sigmoid activation function


    sigmoid激活函数

    在二分类的问题中,对于输出层,因为的值是0或1,所以想让的数值介于0和1之间,而不是在-1和+1之间。所以需要使用sigmoid激活函数。

  2. Tanh activation function


    tanh函数

tanh函数是sigmoid的向下平移和伸缩后的结果。对它进行了变形后,穿过了点,并且值域介于+1和-1之间。


image.png

结果表明,如果在隐藏层上使用,效果总是优于sigmoid函数。因为函数值域在-1和+1的激活函数,其均值是更接近零均值的。在训练一个算法模型时,如果使用tanh函数代替sigmoid函数中心化数据,使得数据的平均值更接近0而不是0.5.

3)Rectified Linear Unit (ReLU)&Leaky Relu

Rectified Linear Unit (ReLU)&Leaky Relu

sigmoid函数和tanh函数两者共同的缺点是,在特别大或者特别小的情况下,导数的梯度或者函数的斜率会变得特别小,最后就会接近于0,导致降低梯度下降的速度。
在机器学习另一个很流行的函数是:修正线性单元的函数(ReLu),ReLu函数图像是如下图。


image.png

这是很多激活函数的默认选择,如果在隐藏层上不确定使用哪个激活函数,那么通常会使用Relu激活函数。有时,也会使用tanh激活函数,但Relu的一个优点是:当z是负值的时候,导数等于0。

这里也有另一个版本的Relu被称为Leaky Relu。


image.png

当z是负值时,这个函数的值不是等于0,而是轻微的倾斜,如图。
这个函数通常比Relu激活函数效果要好,尽管在实际中Leaky ReLu使用的并不多。

我们来分析一下这四个激活函数:
第一,在的区间变动很大的情况下,激活函数的导数或者激活函数的斜率都会远大于0,在程序实现就是一个if-else语句,而sigmoid函数需要进行浮点四则运算,在实践中,使用ReLu激活函数神经网络通常会比使用sigmoid或者tanh激活函数学习的更快。

第二,sigmoid和tanh函数的导数在正负饱和区的梯度都会接近于0,这会造成梯度消失,而Relu和Leaky ReLu函数大于0部分都为常数,不会产生梯度消失现象。(同时应该注意到的是,Relu进入负半区的时候,梯度为0,神经元此时不会训练,产生所谓的稀疏性,而Leaky ReLu不会有这问题)

在ReLu的梯度一半都是0,但是,有足够的隐藏层使得z值大于0,所以对大多数的训练数据来说学习过程仍然可以很快。

最后可以总结为:
sigmoid激活函数:除了输出层是一个二分类问题基本不会用它。

tanh激活函数:tanh是非常优秀的,几乎适合所有场合。

ReLu激活函数:最常用的默认函数,如果不确定用哪个激活函数,就使用ReLu或者Leaky ReLu。

我们可以发现激活函数全部都是非线性的,这就是为什么我们在上一章多层感知机可以处理非线性空间的原因。当单一神经元被激活函数激活,便不再是线性的了,相反如果不加激活函数,那么无论多少的神经元,最后的结果依然是线性的。

多维数组的计算

今天的最后一个部分是关于向量化的,其实神经网络的计算也可以用多重for循环搞定,但是作为一个程序猿深知多重for循环的痛,因为它太慢了,当数据量上到一定级别,它将成为性能的瓶颈。那么向量化就很好的解决了这一难题。我写了一个例子,向量化的速度大概是非向量化的300倍!!!
快这么多是因为CPU和GPU都有并行化的指令,他们有时候会叫做SIMD指令,这个代表了一个单独指令多维数据,它可以让python的充分利用并行化计算,相对来说,GPU更加擅长SIMD计算,这就是为什么在深度学习领域对显卡的要求特别高。
书中这部分内容实际是在帮我们复习线性代数的基础,向量化正是借助线性代数的概念实现的,所以线性代数在机器学领域是非常重要的。
值得注意的是:
一、在python中矩阵的乘法并不是用*表示的,而是要用np.dot实现。
二、注意矩阵的维度,矩阵和向量,计算结果完全不同。在编程的时候统一使用矩阵,防止出错

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351