2018-01-15 00:38:27
《科学的极致:漫谈人工智能》
图灵的研究无疑大大推动了人工智能的进展。然而,图灵本人却于1954年死于一个被剧毒氰化物注射过的苹果,享年仅仅42岁。传闻他是一名同性恋,这在当时的英国是非法的。于是英国政府强行给他注射一种药物抑制他的同性恋倾向,这导致他最终在治疗期间痛苦万分地自杀了。据说,苹果公司为了纪念这位计算机科学之父,特意用那个被图灵咬掉一口的苹果作为公司的logo。
神经网络不同,遗传算法不需要把学习区分成训练和执行两个阶段,它完全可以指导机器在执行中学习,即所谓的做中学(learning by doing)。
首先,符号学派的思想和观点直接继承自图灵,他们是直接从功能的角度来理解智能的。他们把智能理解为一个黑箱,只关心这个黑箱的输入和输出,而不关心黑箱的内部构造。因此,符号学派利用知识表示和搜索来替代真实人脑的神经网络结构。符号学派假设知识是先验地存储于黑箱之中的,因此,它很擅长解决利用现有的知识做比较复杂的推理、规划、逻辑运算和判断等问题。
连接学派则显然要把智能系统的黑箱打开,从结构的角度来模拟智能系统的运作,而不单单重现功能。这样,连接学派看待智能会比符号学派更加底层。这样做的好处是可以很好地解决机器学习的问题,并自动获取知识;但是弱点是对于知识的表述是隐含而晦涩的,因为所有学习到的知识都变成了连接权重的数值。我们若要读出神经网络中存储的知识,就必须要让这个网络运作起来,而无法直接从模型中读出。连接学派擅长解决模式识别、聚类、联想等非结构化的问题,但却很难解决高层次的智能问题(如机器定理证明)。
行为学派则研究更低级的智能行为,它更擅长模拟身体的运作机制,而不是脑。同时,行为学派非常强调进化的作用,他们认为,人类的智慧也理应是从漫长的进化过程中逐渐演变而来的。行为学派擅长解决适应性、学习、快速行为反应等问题,也可以解决一定的识别、聚类、联想等问题,但在高级智能行为(如问题求解、逻辑演算)上则相形见绌。
DNN不但大幅度提高了准确率,还间接解决了语音识别模型训练的一个实际问题:对于一些小语种,无法收集到足够多的训练语料数据。谷歌的研究人员发现了一个有趣的现象,先针对有足够训练数据的大语种(如英语)训练一个识别网络,然后将网络最顶层的英语音素分类层去掉,代之以某个新语言的音素分类层,而重用下层产生的特征(即把原网络去掉最顶层后当成一个语音特征提取器),这样只要花非常少的训练代价,就可以得到一个效果非常好的新语言识别网络。特征重用带来的迁移学习能力体现了表示学习的巨大威力。
《必然》 (凯文·凯利)
在每个成功的无政府体系中总会存在一个长老会组织。
《第二次机器革命》
为什么我们还担心有一些人的生活会更好呢?”正像哈佛大学经济学家格雷格·曼昆(Greg Mankiw)所评论到的,如果1%的人口在获得巨额财富的同时还能为其他所有人创造巨大的财富,这反映的是一种赏罚分明的结果,而未必是个严重的问题。 资本主义经济体系得以运转的部分原因是,它们给创新者提供了强烈的刺激:如果你的创造在市场中获得了成功,那么你至少会得到一些酬劳的回报。而如果你的创造带来了辉煌的成功,那么对你的奖赏将是巨大的。当这些刺激因素运转良好时(但这种体系内不会给那些胆大妄为之人提供巨大而无风险的奖赏),所带来的收益将非常可观:创新者一方面提高了很多人的生活水平,另一方面,通过销售、购买关系,创新者也变得富足起来。每个人都获得了收益,即使并不是每个人所获得的收益都是相同的。 高科技行业提供了很多这类令人兴奋的现象的例子。企业家们创造了设备、网站、应用程序以及其他我们认为有价值的产品和服务。我们可以随便使用和购买它们,企业家们由此在财富上获得了巨大的成功。这不是一种功能失调的模式,它是一种利益共享的模式。正像经济学家拉里·萨默斯(Larry Summers)所说的:“假设说美国有30多个像史蒂夫·乔布斯这样的人……我们不得不承认,从某种程度上看,这种不平等的另一面就是成功的企业家精神;这当然是我们要鼓励的事情。” 我们尤其想要鼓励这样的创造,因为,正像我们在第6章所看到的,技术的进步通常还帮助了全世界甚至是最贫穷的人们。一些认真的研究成果已经显示,像移动电话这样的创新正在提高人们的收入、财富和其他福利水平。
《如何思考会思考的机器》约翰·布罗克曼(John Brockman)
伯特兰·罗素在他《我为何而生》(What I Have Lived For )中的动人叙述: 有三种情感,单纯然而强烈,支配着我的一生:对爱情的渴望,对知识的追求,以及对人类苦难不可遏制的同情。这些感情如阵阵巨风,挟卷着我在漂泊不定的路途中东飘西荡,飞越苦闷的汪洋大海,直抵绝望的边缘。
《大数据预测 (埃里克·西格尔)》
两个预测模型的组合 由此,竞争对手就成了合作伙伴,尽管两个预测模型完全不同且设计思路也有较大差别,但两者的合并却并不难。BigChaos竞赛小组的安德烈亚斯·道斯特对我说,在合并系统时,他们并没有细究两个模型的理论和方法,相反,他们是通过预测建模系统来实现整合的。他们在这两个模型的基础之上研发出了一种新的模型,以方便对前两种模型的管理。在某些案例上,模型1可能要胜过模型2,但在另外一些案例上,模型1可能不如模型2。由此,组合模型就可看到两个模型相对薄弱的环节。在两个模型都给出相同预测时,问题当然不大,但如果两个模型给出的预测结果截然相反,那么组合模型就会对此加以考虑,以提升其整体预测表现。 在Netflix竞赛中,这次合并实际上改变了游戏的规则,由此掀起了一波合并浪潮,各团队纷纷寻找伙伴来组成更大更优秀的参赛队伍。这就好比是某新兴行业中忽然掀起的企业间并购重组浪潮。
《科技想要什么 (凯文 凯利)》
工业革命早期,有实力的机构如教会、政府、手工业行会,都会在不同的时期对新冒出来的技术加以限制。少数禁令在某个时期持续了数百年,当时一项技术的改进也需要几百年的时间。幕府时代的日本禁止用枪、明代中国禁止海上探险,时间都长达3个世纪,绢纺在意大利被禁200年。还有几项禁令在历史上持续了这么长时间。由于法国同业公会几任抄写员的拖延,印刷术迟迟不能引入巴黎,不过也只有20年。但是,事实证明这种禁令的做法是徒劳的,「禁令本质上是延期令」。该出现的一定会出现,该流行的一定会流行。随着技术的生命周期加速,一项流行的发明几年内就会消退,技术禁令期限自然也就缩短了。禁令也许持续时间不长,而它们在发布期内是否真正有效,却是个很难回答的问题。
与「禁令原则」不同,「预防原则」看起来要开明一些。「预防原则」看上去并不粗暴地拒绝技术的使用,或者说并不根据什么戒条阻止技术的流行。但是,「预防原则」要求技术的使用,要「洞悉其可能带来的风险」,也就是说,「证明无害」。这一要求其实与「禁令原则」没有实质的区别。比如1992年世界首脑峰会达成的《里约宣言》中,有这样的话:「具有造成重大危害之不确定可能性的活动应被禁止。除非该活动支持者证明不存在造成危害的巨大风险。」 凯文·凯利认为,这种原则理论上好听,但实际行不通。技术的负面效应既不可能完全祛除,也不可能完全预知。比如DDT的使用就是这样。60年前DDT是有功之臣,它消灭了50%以上的疟疾。但是十几年后,DDT对水资源、土壤、物种的侵害就昭然天下了。
《超级智能 ((英)波斯特洛姆)》
过去20年间一个主要的理论进展便是人们更清醒地意识到,目前表面上完全不同的各类技术,是可以被理解为存在于一个共同数学框架中的特殊案例的。举个例子,许多类型的人工神经网络系统都可以被视为对特定类别统计计算的展示(是一种最大似然估计)。这其实是将神经系统视为从实例中学习分类的更大一类算法中的一种,比如:决策树、逻辑回归模型、支持向量机、朴素贝叶斯、KNN算法等。在一定程度上,遗传算法可以被视为一种随机爬山法的演示,是寻找最优化算法大类中的一种。每一类这种算法在建立分类和寻找解决空间上都有自己的优缺点,而这些优缺点都是能够借助计算揭示出来的。不同的算法对处理时间和存储空间的要求都有所不同,从而带来了两个问题:一个问题是算法的预先假设存在归纳偏置,不过这个问题可以通过纳入外部内容来得到缓解;另一个问题就是,如何把算法的内在运行机制向人类分析家们解释清楚。
如果这种技术能显现出更加明显的益处,比如孩子会有较高智商,获得遗传性疾病的概率较小等,那么愿意使用试管婴儿的夫妻数量才会增加。
《心智社会》马文·明斯基(Marvin Minsky)
有证据表明,如果长时记忆的先行者短时记忆不能持续一段时间,那么就无法形成长时记忆。这一过程可能会受到各种各样的药物和损伤的影响,这就是为什么有些人永远也无法回忆起脑震荡前几分钟内发生的事。
我们都知道哀伤的时间跨度似乎无情地长,我们常常需要很久才能接受失去自己所爱的人。也许这一点也反映出依恋的变化是缓慢的,尽管它只是影响因素之一而已。这在一定程度上也可以解释,在经历过身体、情绪或性方面的侵害后,人们会有很长时间的心理障碍。人们可能会问,如果这种经历会产生这么多破坏性的效果,为什么还会与依恋的记忆有关呢?我怀疑任何形式的亲密关系,无论多么不受欢迎,都会对依恋和性所共用的机器产生影响。无论这个暴虐的情节有多短,都会在我们的普通生活中造成长期的精神错乱,部分原因是那些智能组变化很缓慢。受害者以中立的态度对待当时的情境也没什么帮助,因为思维中其余的部分无法控制这些智能组,只有时间才能让它们重新正常运转。人们用来建立身份的智能组如果无法正常工作,这种伤害比失明或断手断脚还要严重。
《终极算法》([美]佩德罗·多明戈斯)
如果你是一个懒惰又不那么聪明的计算机科学家,机器学习就是理想的职业,因为学习算法会完成所有事情,功劳却是你的。
我们寻找终极算法的过程是复杂且活跃的,因为在机器学习领域存在不同思想的学派,主要学派包括符号学派、联结学派、进化学派、贝叶斯学派、类推学派。
对于符号学派来说,所有的信息都可以简化为操作符号,就像数学家那样,为了解方程,会用其他表达式来代替本来的表达式。符号学者明白你不能从零开始学习:除了数据,你还需要一些原始的知识。他们已经弄明白,如何把先前存在的知识并入学习中,如何结合动态的知识来解决新问题。他们的主算法是逆向演绎,逆向演绎致力于弄明白,为了使演绎进展顺利,哪些知识被省略了,然后弄明白是什么让主算法变得越来越综合。 对于联结学派来说,学习就是大脑所做的事情,因此我们要做的就是对大脑进行逆向演绎。大脑通过调整神经元之间连接的强度来进行学习,关键问题是找到哪些连接导致了误差,以及如何纠正这些误差。联结学派的主算法是反向传播学习算法,该算法将系统的输出与想要的结果相比较,然后连续一层一层地改变神经元之间的连接,目的是为了使输出的东西接近想要的东西。 进化学派认为,所有形式的学习都源于自然选择。如果自然选择造就我们,那么它就可以造就一切,我们要做的,就是在计算机上对它进行模仿。进化主义解决的关键问题是学习结构:不只是像反向传播那样调整参数,它还创造大脑,用来对参数进行微调。进化学派的主算法是基因编程,和自然使有机体交配和进化那样,基因编程也对计算机程序进行配对和提升。 贝叶斯学派最关注的问题是不确定性。所有掌握的知识都有不确定性,而且学习知识的过程也是一种不确定的推理形式。那么问题就变成,在不破坏信息的情况下,如何处理嘈杂、不完整甚至自相矛盾的信息。解决的办法就是运用概率推理,而主算法就是贝叶斯定理及其衍生定理。贝叶斯定理告诉我们,如何将新的证据并入我们的信仰中,而概率推理算法尽可能有效地做到这一点。 对于类推学派来说,学习的关键就是要在不同场景中认识到相似性,然后由此推导出其他相似性。如果两个病人有相似的症状,那么也许他们患有相同的疾病。问题的关键是,如何判断两个事物的相似程度。类推学派的主算法是支持向量机,主算法找出要记忆的经历,以及弄明白如何将这些经历结合起来,用来做新的预测。 每个学派对其中心问题的解决方法都是一个辉煌、来之不易的进步,但真正的终极算法应该把5个学派的5个问题都解决,而不是只解决一个。
S形曲线的开始部分是有效指数,在饱和点附近它则接近指数式衰减。当有人讨论指数式增长时,问问你自己:它什么时候会变成一条S形曲线?人口爆炸什么时候才会慢慢消失,摩尔定律的重要性什么时候削减,或者说技术奇异点什么时候才不会发生?辨别一条S形曲线,你就会得到一条钟形曲线:缓慢、快速、缓慢变低、高、低。
反向传播是自然及技术领域中非常常见的战略实例:如果你着急爬到山顶,那你就得爬能找到的最陡的坡。这在技术上的术语为“梯度上升”(如果你想爬到山顶)或者梯度下降(如果你想走到山谷)。细菌就是通过游向食物(例如葡萄糖)分子浓度高的地方来觅食的;遇到有毒物质,它们则会游向有毒物质浓度低的地方。
面对信息缺失以及所有可用信息不可避免的矛盾,要掌握有用的模型就需要利用贝叶斯方法,在第六章我们会深入研究这个问题。对特殊患者进行预测也是同样的道理,掌握模型:可利用的证据必然会杂乱和不完整,但贝叶斯推理会充分利用它。它起到作用了,如果把治愈癌症作为目标,我们不必知道癌细胞运转的所有细节,只需要知道如何在不损害正常细胞的情况下,使癌细胞失去繁殖能力,这就足够了。
因为神经元是非线性的,每个隐藏层会掌握输入层更为复杂的表达方式,在前一个隐藏层的基础上进行构建。给定大批的面部图片,第一个自动编码器会对局部特征,如棱角和斑点进行编码;第二个自动编码器利用这些信息来对诸如鼻尖、眼睛的虹膜这些面部特征进行编码;第三个掌握整个鼻子和眼睛的面部特征等。最终,最顶端的一层可以是一台传统的感知器,会通过下一层编码器提供的上层特征来识别你的祖母,这和只利用单个隐藏层提供的粗糙信息,以及对所有层进行反向传播相比,要简单得多。
有了决策树,是否要利用学习算法可能会依照其他学习算法的预测来定。不管怎样,为了给既定训练例子获取学习算法的预测,我们首先必须将其运用到原始训练集“排除该样本”中,然后利用最终的分类器,否则委员会就有被拟合学习算法控制的风险,因为它们可以通过记忆类别来预测准确的类别。
元学习非常成功,但它却不是深入组合模型的方法。另外,它也昂贵、苛刻,因为会做很多轮学习,而且组合模型可能会很难懂(“我认为你有前列腺癌,因为决策树、遗传算法、朴素贝叶斯算法都这么判断,虽然多层感知器和支持向量机反对”)。