• 作者:[美] 吴军
• 出版年份:2016-8
• 出版社:中信出版集团
• 前言
2016年是机器智能历史上一个具有几年意义的年份,他是一个时代的结束,也是新时代的开始。1956年提出人工智能的概念,60年后Google的围棋计算机AlphaGo打败了李世石,这一胜利,宣告了机器智能时代的到来。
• 第一章 数据---人类建造文明的基石
从古至今,人类在农作生活、认识自然规律、认识天文学、推动社会经济发展,都伴随着数据的产生和使用,对数据和信息进行处理后,人类就可以获得知识。进入信息时代,电子计算机的使用产生了大量的数据,数据的使用推动社会发展,慢慢进入下一个技术革命时代---智能时代。
数据是文明的基石:以天文学发展历程为例
修建金字塔的几千年前,古埃及人在尼罗河附近 观天象,辩农时,开创了天文学;
公元前4000~3000年前,美索不达米亚平原的苏美尔人计算出月亮和五大行星的运行周期,并且能预测日食和月食。
公元前551年,古希腊人将美索不达米亚平原的数学和天文成就带回古希腊,古希腊成为了全世界数学和天文学的中心。代表:柏拉图的学生欧克多索建立地心说早期模型,阿基米德建立日心说早起模型等。
公元130年,托勒密以观测数据为基础,用40~60个小圆套大圆的方法,精确计算出行星运动轨迹。
1600年左右,开普勒从师父第谷继承大量的、精确的数据,用一个椭圆模型清楚地描述了星体运动规律,提出了开普勒三定律。
1700年左右,牛顿提出万有引力定律,彻底解释天体运动是椭圆的原因,并且修正了开普勒的椭圆模型,将椭圆的焦点从太阳移到太阳系的中心。
人类社会发展产生了大量的数据,反之可以利用数据的相关性解决很多难题。日本人使用铁人王进喜的照片,分析出很多大庆油田的详细信息,最终中标政府的保密项目;Google根据用户搜索流感的相关信息,预测流感传播在全世界的趋势变化。
人类掌握足够的数据量,如何使用也是需要面对的难题。Google给了一个很好的答案,AlphaGo分析总结了几十万盘围棋数据后,得到一个统计模型,对于不同的局势下可以比人类更加有效的行棋。这种方法叫做数据驱动方法,即在数据量足够的前提下,使用若干个简单的模型代替一个复杂的模型。
• 第二章 大数据和机器智能
现在人人都知道人工智能,哪如何才能判定是否机器智能呢?有什么办法可以进行这方面测试呢? 当然有,就是图灵测试,即让一台机器和一个人坐在幕后,让一个裁判同时与幕后的任何机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。
从1956年提出人工智能后,科学家一直研究如何让机器变得智能,主要在语音识别、机器翻译、战胜人类象棋冠军、自动回答问题等方面,最初想让机器像人类一样思考,但是十几年来并无实质性进展。直到1972年,贾里尼克到IBM做学术休假,使用大量数据,基于统计方法研究出一款语音识别系统,识别率从70%提升到90%以上,同时语音识别规模从几百词增加到两万多,有了质的飞跃,这种方法被称为数据驱动方法。
2005年,在机器翻译领域并无积累的Google团队参加NIST交流和测评,并以巨大优势打败全世界的机器翻译团队,揭开神秘面纱后,使用的方法还是两年前的方法,但是使用了成千上万倍的数据,量变完成到质变的飞跃。在大数据的基础上,使用数据驱动方法催熟了机器智能。
大数据对于机器智能的意义已经非常明确,但并不是数量大就将机器变得智能。大数据除了数据量大外还有两个重要特征,多维度和完备性。举个简单的例子,使用百度或者Google进行搜索时,输入几个字就可以联想出想要搜寻的信息。依靠数据量大,输入前几个关键字联想出想要搜寻的信息,有时候并不是我们想要的,当输入所有字后,百度会自行保存这部分关键词,而且保存相关搜寻结果,下一次搜索此信息时就可以准确提示整个信息;而且针对相同的关键字,不同人可能获得不同的搜索结果。这就需要多维度的数据,且具完备性,根据不同人的搜索习惯,可以有不同的信息。
未完,待续...