第一章:深度学习简介
* 1.1
人工智能、机器学习与深度学习
* 1.2
深度学习的发展历程
* 1.3
深度学习的应用
* 1.3.1
计算机视觉
* 1.3.2
语音识别
* 1.3.3
自然语言处理
* 1.3.4
人机博弈
*1.4
深度学习工具介绍和对比
-1.1- 人工智能、机器学习与深度学习
* 人工智能
一些人类通过直觉可以很快解决的问题,目前却很难通过计算机解决。 这些问题包括自然语言理解、图像识别、语音识别等 。 而它们就是人工智能需要解决的问题 。
如何让计算机掌握这些人类看起来非常直观
的常识 ,对于人工智能的发展是一个巨大的挑战 。
* 机器学习
很大一部分无法明确定义的知 识,就是人类的经验。
如何让计算机可以和人类一样从历史的经验
中获取新的知识呢?这就 是机器 学习需要解决 的问题 。
卡内基梅隆大学( Carnegie Mellon University)的 Tom Michael Mitchell 教授在 1997 年 出版的书籍 MachineLearning1中对机器学习进行过非常专业的定义,这个定义在学术界内 被多次引用 。在这本书中对机器学习的定义为 “如果一个程序可以在任务 T 上,随着经验 E 的增加,效果 P 也可以随之增加,则称这个程序可以从经验中学习” 。
* 深度学习
深度学习解决的核心问题之一就是自动地将简单的特征组合成更加复杂的特征,并使用这些
组合特征
解决问题 。
深度学习是机器学习的一个分支,它除了可以 学习特征和任 务之间的关联 , 还能自动从简单特征中提取更加复杂的特征 。
深度学习可以一层一层地将简单特征逐步转化成更加 复杂的特征,从而使得不同类别的图像更加可分。
因为深度学习的通用性,深度学习的研究者往往可以跨越多个研究方 向甚至同时活跃于所有的研究方向。
-1.2- 深度学习的发展历程
* 1943年,神经元结构
* 1958年,感知机模型(perceptron)
* 1969年,感知机无法解决异或问题
* 20世纪80年代末 ,分布式知识表达+反向传播算法,使神经网络迎来了发展的高峰期
* 90年代末,传统的机器学习算法进展突破,超越了神经网络
* 2010年左右,计算能力+海量数据,使神经网络迎来了新的高潮
-1.3- 深度学习的应用
-1.3.1- 计算机视觉
* 图像分类
ImageNet 图像数据集 & ILSVRC图像分类比赛
2012年,深度学习算法 AlexNet 赢得图像分类比赛 ILSVRC 冠军
在2013 年的比赛中,排名前 20 的 算法都使用了深度学习。
从2013年之后 ,ILSVRC上基本就只有深度学习算法参赛了。
* 物体识别
物体识别的难度比图像分类更高。图像分类问题只需判断图片中包含哪 一种物体。但在物体识别问题中,需要给出所包含物体的具体位置 。而且一张图片中可能出现多个需要识别的物体。
* CV相关产品
谷歌无人驾驶车、 YouTube、 谷歌地图、 谷歌图像搜索等产品
这些技术在国 内的 百度 、阿里巴巴、 腾讯等科技公司也已经得到了广泛的应用。
* 物体识别 - 人脸识别
人脸识别的最大挑战在于不同人脸的差异较小,有时同一个人在不同光照条 件、姿态或者表情下脸部的 差 异甚至会 比不同人脸之间的 差异更 大 。 传统的机器学习算法 很难抽象出足够有效的特征 , 使得学习模型既可以区分不同的个体,又可以区分相同个体 在不同环境中的变化。深度学习技术通过从海量数据中自动习得更加有效的人脸特征表达,可以很好地解决这个问题。
* 物体识别 - 光学字符识别(opticalcharacterrecognition, OCR)
所谓光学字符坝、别 ,就是使用计算机程序将计算机无法理解的图片中 的字符,比如数字、字母、汉字等符号,转化为计算机可以理解的文本格式。
早在 1989年, Yann LeCun教授发表的论文 BackpropagationApplied to Handwritten Zip Code Recognition将 卷积神经网络成功应用到了识别手写邮政编码的问题上,达到了接近 95%的正确率。
在 MNIST 手写体数字识别数据集上,最新的深度学习算法可以达到 99.77%的正确率,这也 超过了人类的表现。
-1.3.2- 语音识别
* 2009 年
2009 年深度学习的概念被引入语音识别领域,井对该领域产生了巨大的影响。在短短几年时间内,深度学习的方法在 TIMIT 数据集5上将基于传统的泪合高斯模型( gaussian mixture model, GMM )的错误率从 21.7% 降低到了使用深度学习模型的 17.9%。 如此大的提高幅度很快引起了学术界和工业界的广 泛关注。
-1.3.3- 自然语言处理
* 过去的几年
在过去的几年中,深度学习已经在语言模型( language modeling)、机器翻译、词性标注( part-of-speech tagging)、实体识别(named entity recognition, NER)、情感分析( sentiment analysis)、广告推荐以及搜索排序 等方向上取得了突出成就。
与深度学习在计算机视觉和语音识别等领域的突破类似, 深度学习在自然语言处理问题上的突破也是能够更加智能、自动地提取复杂特征
。 在自然语言处理领域,使用深度学习实现智能特征提取的一个非常重要的技术是单词向量 (word embedding)
。 单词向量是深度学习解决很多上述自然语言处理问题的基础。
-1.3.4- 人机博弈
* AlphaGo
在北京时间2016年3月 15 日的下午, 谷歌开发的围棋人工智能系统
AlphaGo
以总比分 4 : 1 战胜了韩国棋手李世石,成为第 一 个在 19×19 棋盘上战胜人类围棋冠军的智能系统 。
虽然 AlphaGo 不是第 一个战胜人类世界 冠军的系统,但 AlphaGo 的胜利绝对是人工智能历史上的一座里程碑。
在 1997 年 IBM 的 智能国际象棋系统深蓝(deep blue)
击败世界冠军卡斯帕罗夫时,所依赖的更多是计算机 的计算资源,是通过暴力搜索( brute-force)的方式尝试更多的下棋方法从而战胜人类。然 而这种方式在围棋上是完全不适用的,因为搜索围棋下子方法的复杂度为 10172, 而国际象 棋只有 10460
仅在一年之后, AlphaGo 的改进版Alpha Zero
再次在围棋领域实现突破。相比于之前 的 AlphaGo,其最大的改变在于 : 第 一 , AlphaGo Zero 极大程度上减少了对 训 练数据的 需 求; 第二, AlphaGoZero将原来的两个神经网络归一成了一个。
-1.4- 深度学习工具介绍和对比
* DistBelief
* TensorFlow
* 其他
工具名称 | 维护团队 | 支持语言 | 支持系统 |
---|---|---|---|
Caffe | 加州大学伯克利分校 | ||
DeepLearning4j | SkyMind | ||
CNTK(Microsoft Cognitive Toolki) | 微软研究院 | ||
MXNet | DMLC(分布式机器学习社区) | ||
PaddlePaddle | 百度 | ||
TensorFlow | 谷歌 | ||
Theano | 蒙特利尔大学 | ||
Torch | Facebook\Google\Twitter | ||
PyTorch |