深度学习成长的烦恼

【编者按】深度学习尽管对当前人工智能的发展作用很大，然而深度学习工作者并非一帆风顺。Chris Edwards发表于Communications of the ACM的这篇文章，通过不同的深度学习研究人员的现身说法，列举了深度学习在不同场景下面临的一些挑战以及目前的解决方案。CSDN翻译此文，希望对国内深度学习从业者有借鉴意义。
理论和计算机硬件的进步促使神经网络成为在线服务的核心部分，如微软的Bing，采用神经网络驱动图像搜索和语音识别系统。这些公司提供这样的能力是希望在未来该技术能驱动更先进的服务，因为他们扩展了神经网络来处理更复杂的问题。
神经网络从50年前的最初设想，到成为信息技术应用的公认部分，花了很长的时间。上世纪90年代，在一阵混乱的兴趣之后，部分支持通过发展高度专业化的集成电路设计来克服传统计算机性能的不足，神经网络在各类算法中脱颖而出，比如在图像处理中的支持向量机以及语音识别中的高斯模型。
旧版简单的神经网络最多使用三层结构，分为输入层、中间“隐藏”层和输出层。神经元跨层高度关联。每个神经元将其输出馈送到下一层的每个神经元。该网络是这样训练的：迭代地调整每个神经元施加到其输入的数据，来尽量减少整个网络的输出与所希望的结果之间的误差。
虽然神经科学表明人脑具有涉及多个隐藏层的更深结构，但是这类系统的早期实验结果比浅层网络更糟糕。2006年，Geoffrey Hinton和Ruslan Salakhutdinov在多伦多大学的工作使得深度架构的研究获得一个显著的提升。他们开发的训练技术能更有效地用于包含多个隐藏层的网络。其中一种技术是“预训练（pre-training）”，用于在移动之前独立地调整每一层的输出以优化整个网络的输出。该方法使得上层能够提取可用于下面的隐藏层有效地进行数据分类的高级特征。
即使训练有所改善，规模还是深度学习的一个问题。充分互连的神经元，特别是在较高的层，需要巨大的计算能力。用于图象处理应用程序的第一层可能就需要分析一百万个像素。深度网络的多个层连接的数量将会大几个数量级。总部位于瑞士Manno的Dalle Molle Institute人工智能研究院（IDSIA）研究员Dan Cireşan认为，“每个图像有几十亿甚至上千亿的连接待处理”，训练这样的大型网络需要数千万亿（quadrillions）的浮点运算。
Cireşan这样的研究人员发现，可以使用非传统的计算机体系架构来大规模加快处理速度。诸如AMD和nVidia公司的图形处理单元（GPU）提供了并行执行上百个浮点运算的能力。先前加快神经网络训练的努力围绕较慢但更容易编程的集群工作站。在一个深度神经网络训练用于寻找生物细胞分裂视觉特征的实验中，Cireşan认为在传统的CPU上训练阶段花费五个月，“它在GPU上只花了三天时间。”
Facebook人工智能研究技术总监、纽约大学数据科学中心创始人Yann LeCun认为：“以前，神经网络没有打破识别连续语音的记录；它们还不够大。当人们更换为深度神经网络的高斯模型，误差率又一路下跌。”
根据他们的介绍，深度神经网络显示了超过三分之一的改善，将带有少量背景噪声的语音识别的错误率从35%减小至25%以下，并且进一步优化还有更大的改进。
这种学习形式有一些限制。总部位于伦敦、在2014年年初被谷歌以4亿美元收购的DeepMind，使用电脑游戏来评估深度神经网络面对不同类型问题的性能。谷歌研究员Volodymyr Mnih认为，该系统无法处理类似穿越迷宫这样的情况，即奖励只在成功地完成若干阶段后发放。在这些情况下，当网络尝试各种随机初始操作并且失败时，基本什么都学不到。深度神经网络在如Breakout和Virtual Pinball等游戏中表现比较好，这些游戏成就可能会推迟，但它可以从随机响应学习。
在商业应用中部署深度网络，团队都转向定制计算机的设计，使用现场可编程门阵列（FPGA）。这些实现的自定义电子电路使用可编程逻辑查找表，硬连线算术逻辑单元优化数字信号处理，以及存储器单元矩阵来定义所有这些元件如何连接。
中国搜索引擎和网络服务公司百度（使用深度神经网络来提供语音识别、图像搜索，并服务于语境广告）决定服务器生产中使用FPGA而不是GPU。百度高级架构师Jian Ouyang表示，虽然个别的GPU提供峰值浮点性能，在百度使用的深度神经网络的应用中，相比相同的性能水平FPGA消耗更少的功率，并可以安装在刀片式服务器上，完全由连接在主板上的PCI Express总线供电。FPGA的一个主要优点是：因为一个计算得到的结果可以被直接馈送到下一个而无需在主存储器临时保存，存储器带宽需求比使用GPU或CPU实现时低得多。
“使用FPGA，我们不需要修改服务器设计和环境，所以很容易大规模部署。我们需要许多功能来支持那些无法在同一时间部署到FPGA中的。但是，我们可以使用他们的可重配置在FPGA中按需移入和移出功能。重构时间小于10μs。” Ouyang说。
百度团队通过使用一个简化的浮点引擎来进一步节省空间。“处理器提供的标准浮点实现可以处理所有可能的异常。但以我们的情况来看，我们并不需要处理所有IEEE[754]标准以外的情况。”
还有，设法使用更有效的处理器，研究人员正试图利用分布式处理来构建更广泛的深度学习网络以应对更大的数据集。通过网络传送的等待时间严重影响训练速度。然而，与一个提供更低延迟的从以太网络到互联结构的转换一起重新整理训练算法，使得来自斯坦福大学的团队在2013年为多个并行的GPU实现近线性的加速。在最近的工作中使用CPU集群而不是GPU，微软开发出一种放松同步要求的训练方法，允许跨数千机器执行。
更具扩展性的网络使得百度有可能实现一个名为Deep Speech的“端到端”语音识别系统。该系统不依赖于传统语音处理算法的输出，例如使用隐式的马尔可夫模型来提高有噪声输入时的性能。在一个噪音频发的数据集上，相比于2014年年底最佳商业系统错误率可达到的30.5%，它将单词识别的错误率减少到刚刚超过19%。
然而，预处理数据以及合并从多个较小网络得到的结果比纯粹依靠神经网络更有效。Cireşan已联合使用图像扭曲和小网络“委员会”来减少相比较大单一深度学习网络的错误率。在交通标志识别的一个测试中，技术的结合产生了比人类观察者更好的性能。
决定为一个给定模式的类使用扭曲需要人工干预。Cireşan认为，网络自主学习扭曲的最佳组合是困难的，但对于人来说设置系统通常是一个容易的决定。
谢菲尔德大学计算机科学系机器学习教授Neil Lawrence认为，传统深度学习的一个潜在的问题是数据的访问。他说，当数据集很好地表示并且可以在大量的适当标签数据上训练时，深度模型往往表现良好。“然而，激励我的其中一个领域是临床数据，并不是这种情况。对于临床数据，大多数人大部分时间并没有大量的临床试验来使用。此外，临床试验也在不断发展，就像患者的疾病一样。这是一个‘大量丢失的数据’的例子。”
Lawrence等人曾建议使用概率论中的高斯过程层代替神经网络，以提供对较小数据集的有效学习，对于应用程序，神经网络表现并不良好，比如那些相互连接贯穿于许多不同数据库的数据，这是医疗的情况。因为数据可能不会呈现在某些数据库作为一个给定的候选，概率模型处理这种情况要比传统的机器学习技术更好。这项工作落后于神经网络，但研究人员已开始着手于有效的训练技术，以及扩大处理来工作在如多核GPU机器一样的平台上。
“我们有额外的算法负担，即围绕网络传播不确定性，”Lawrence说。“这就是算法问题的开始，但也是在这里，我们已经有大部分的突破。”
Lawrence表示，基于高斯过程的深度学习系统可能会要求更高的计算性能，但系统能够自动判断网络内部需要层，这是基于神经网络的系统目前所不能实现的。“这种类型结构的学习是非常令人兴奋的，并且是考虑这些模型的原始动机之一。”
对于目前更广泛的神经网络系统，Ciresan提到去除更多限制建造更大、更有效的模型的工作正在进行，“但我想说，我们最想要的是更好地理解深度学习为什么能实现。”
原文链接：Growing Pains for Deep Learning（翻译/王玮责编/周建丁）

最后编辑于：2017.11.27 03:03:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,686评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,668评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,160评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,736评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,847评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,043评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,129评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,872评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,318评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,645评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,777评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,470评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,126评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,861评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,095评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,589评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,687评论 2赞 351

深度学习成长的烦恼

推荐阅读更多精彩内容