深度学习-发展概览(单一视角)

前言:对深度学习有个直观的了解,类似于信号处理里面FFT展开后的常数项,接下来要就某一个算法进行研究这是一次项,然后就是二次项、三次项·····

引用自这看这里看这里


感知机是神经网络的雏形,但是无法解决复杂函数例如异或问题,因此出现了多层感知机,多层感知机可以摆脱早期离散传输函数的束缚,使用sigmod或tanh等连续函数模拟神经元对激励的响应,在训练算法上则使用BP反向传播算法,对啦!这就是我们现在名声大噪的神经网络NN啦!

ps. 额,其实就是换了个超叼的名字····

多层感知机给我们的启示是:神经网络的层数决定了它对现实的刻画能力,利用每层更少的神经元拟合更复杂的函数;
同时面临的问题是:

  • 层数增加,越易陷入局部最优解;
  • 数据有限的情况下,性能可能还不如浅层的;
  • 梯度消失问题,sigmod每反向传递一层梯度就衰减为原来的0.25(假设原来是1);

2006年Hinton李勇预训练方法缓解了局部最优解问题,隐含层推至7层,开启了深度学习的热潮;

为了克服梯度消失问题,ReLU、maxout等传输函数代替了sigmod,形成了如今DNN(深度神经网络)的基本形式,也就是说:单从结构上来说,全连接的DNN和上面说的多层感知机是没有任何区别的

高速公路网络和深度残差学习进一步避免了梯度消失问题,网络层数达到了前所未有的一百多层;

CNN

慢慢地深度网络向图像迁移,但是图像很大啊,比如1K1K的图像,当我们使用全连接*的时候,隐含层是不是就有1M个节点啊:


光是第一层就有10^12个权重需要训练,这不仅计算量太巨大,而且特别容易过拟合陷入局部最优啊!
图像中有轮廓的概念,这是先人的研究成果,因此结合神经网络,就捯饬出了一个所谓的卷积核出来,用卷积核来处理轮廓单元等其他一些操作(从直觉来看,不同的卷积核是可以学习到不同的结构特征的),注意卷积核移动时是全局共享的,且卷积后图像位置是不变的。
CNN限制参数个数,并挖掘了局部特征。


RNN

上面模式的全连接DNN无法处理时间序列的数据,为了处理带时间特性的数据如语音,因此出现了RNN循环神经网络;

在普通的全连接网络或者CNN中,每层的神经元信号只能向上一层传播,样本的处理在各个时刻独立,因此前向传播由此而来。而RNN神经元的输出可以在下一个时间戳直接作用到自身。

RNN网络结构
RNN在时间上展开

(t+1)时刻网络的最终结果O(t+1)是该时刻输入和所有历史共同作用的结果!从而实现对时间序列的建模。

然而,RNN是一个在时间上传递的神经网络,它的深度是时间的长度,boom!!!梯度消失再次出现,发生在时间轴上,因此为了解决时间上的梯度消失,长短时记忆单元LSTM就闪亮登场了,它通过门的开关实现时间上记忆功能,并防止梯度消失

LSTM
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 第二个Topic讲深度学习,承接前面的《浅谈机器学习基础》。 深度学习简介 前面也提到过,机器学习的本质就是寻找最...
    我偏笑_NSNirvana阅读 15,696评论 7 49
  • 昨日看了zealer专访红衣大炮的视频,里面问道老周对于手机行业发展的看法,不禁回想到之前面试ucloud的...
    我的征途是星辰大海阅读 351评论 0 2
  • 20170331 晨读感悟 1.战略制定过程中资源配置是最重要的, 资源配置 如果和战略逻辑不相符, 衡量员工成功...
    花朵小恬阅读 157评论 0 0
  • 1:排气管冒黑烟 故障判定:真故障 原因分析:表面混合气过浓,燃烧不完全。只要原因是发动机超负荷,气缸压力不足,发...
    宏宇_8a57阅读 121评论 0 1
  • 要学会……演戏。 今天中午丧心病狂的来了一次麻辣大锅乱炖……不过味道相当不错。 就是油脂严重超标的感觉。 本周也是...
    沃雷塔尔阅读 136评论 0 0