李宏毅机器学习(八)Deep Learning深度学习

深度学习分的3个步骤:第一步定义函数模型,其实就是建立神经网络

插图1

对于一个神经网络每个逻辑回归(神经元)的输入输出都可能连接到任何地方,不同的连接就构成了不同的结构,这个结构里就有大量的权重和偏置

插图2

我们有各种各样的连接方法,常见的是Fully Connect Feedforward Network全连接前馈神经网络

假设我们的输入和各权重偏置如图,我们就可以得到对应输出

插图3

如果我们有下图的连接方式,虽然各w,b都没有确定,但是他的函数集已经确定了

插图4

对于全连接前馈网络,我们的输入x有N个特征,这一层叫做输入层,中间Layer1到L-1为隐层,L层为输出层,其中因为每个隐层的神经元输入与上一层所有的输出都连接,且向前传递,因此我们称之为全连接前馈网络

插图5

深度学习的深度通常是指隐层的长度,那多深是深呢,有人认为很多层就是深了,有人认为用了一层隐层也是深度学习,我们没有那么严格划分,且看下图,第一次竞赛中使用深度学习用了8层,错误率16.4%,2015年使用了152层的网络,已经错误率减小到3.57%,这已经接近或者超过了大多数人的识别能力。

插图6

我们进行网络参数传递的运算其实就是矩阵运算,以图为例,wx+b可由矩阵乘法和加法获得,然后我们通过函数(激活函数)可计算出结果(这里使用的仍是逻辑回归自带的sigmoid函数,实际我们常常使用ReLu函数)

插图7

更为一般性的我们就可以求出整个神经网络的传输函数如下图,因为gpu有矩阵运算的单元,所以我们神经网络梯度下降的时候常常考虑使用gpu加速

插图8

我们仔细分析各层的作用,可以发现隐层实际上就是在做特征提取,输出的比较明显的特征分类给输出层的多分类器,使其准确分类,当然多分类器输出层还包括softmax部分,强化概率区别

插图9

以手写数字判别为例,图片是16*16的,那输入就是256维的特征向量,每个特征0,1表示该点是否为深色,输出就是个10维向量,每个维度表示这个维度对应数字的概率

插图10

我们知道输入输出,但是需要定制隐层的结构,用多少层?每层多少个神经元?这些一般都不是说得准的(突然成了玄学 = =),需要通过经验和直觉来指定,一旦确定了层数和每层神经元数,那我们的网络模型就确定了,所以深度学习并不是把分类变得真正简单,而是把一个问题变成了另一个问题

插图11

我们如何优化神经网络呢,以图中识别手写数字为例,我们可以输出一个向量1,0,0,0……此时我们还是使用多分类的交叉熵

插图12

我们对每个样本都能求出交叉熵,我们对总样本交叉熵求和,使其最小,方法当然还是梯度下降,来找到神经网络的最优参数\theta ^*

插图13

梯度下降示意图如下,我们随机初始参数\theta ,根据梯度下降来逐步迭代,即使是AlphaGo也是使用梯度下降来优化

插图14

深度学习是越深就越好吗?我们从下图可以看出深度越深的确错误率降低了。

插图15

对于一个连续的函数f,我们都可以使用足够多的神经元,在一个隐层实现将其很好的模拟(不过这模型看上去比较宽,难道该叫做Fat learning?),我们为什么采用深度模型呢,待以后分解

插图16
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 原文地址:http://www.cnblogs.com/subconscious/p/5058741.html 神...
    Albert陈凯阅读 5,587评论 0 48
  • 第二个Topic讲深度学习,承接前面的《浅谈机器学习基础》。 深度学习简介 前面也提到过,机器学习的本质就是寻找最...
    我偏笑_NSNirvana阅读 16,192评论 7 49
  • 优秀,优秀到闪耀。 1 坚持健身,日语学习 2 坚持我的年计划考取证书 3 继续无条件的自信 4 热爱生活热爱这个...
    TedLees阅读 228评论 0 0
  • 最近几天刚好休年假,所以有幸地能为自己当个假,然后我和朋友一行就赶往了海南,因为人生地不熟,再加上我们俩都是主观能...
    念之夭夭阅读 377评论 0 0
  • 拿着铁锤锤铁球 今天又失控了,又又又反映了我非常强的负面情绪,非常想完全的自控,这种情绪就像你拿着一个铁锤,你锤的...
    89089答复阅读 281评论 0 0

友情链接更多精彩内容