人工智能概念的提出已经62年,如今终于到了茶余饭后常谈论、创业融资遍地开花的时候,吴军老师的《智能时代》出版于人工智能的突破转折年——2016年,就在AlphaGo打败李世石的那一年,这真的是一本有理论有案例有逻辑有温度的好书,值得分析式细读。
作者吴军老师是我在“得到”APP第一个付费订阅的老师,曾经是Google中日韩文搜索算法的主要设计者,原腾讯副总裁,著有《数学之美》、《浪潮之巅》和《文明之光》,现在是硅谷风险投资人。我对他的认识源于在他在得到APP开设的付费栏目”硅谷来信”,从硅谷资讯到Google前沿,从商业到科学、从历史到人文,从精神导师到人生智慧,从读书到旅行,从人性到爱情,无所不谈,总觉得他就是当代成功跨界且灵魂自由的人,平实易懂的语言风格又觉得他就是个勤劳的高情商学霸。
《智能时代》谈了些什么?
全书7个章节讲述大数据发展的历史、对社会方方面面的作用,机器智能的原理及发展历程,近代以来人类思维模式的变革,大数据与商业的关系,未来智能社会各行各业的形态、以及可能带来的忧患。
此书出版分类是经济读物,我更愿意把它看成一本科普书,始终贯穿着科学的发展史,产业革命的变革史。看完整本书,从宏观上我了解了技术革命,对社会变革的影响,微观上我了解了谷歌,微软等一系列的公司的变迁,商业模式,产品形态的变迁。
什么是大数据、人工智能?
只要是能够被记录的,不论存在于互联网或者现实生活中,不论是UGC(用户产生的内容)还是专业资料库,不论是文字还是图像,不论真的假的,都是数据,吴军老师提到数据是人类文明的基石,并且用大量文明发展史论据做了证明。
要得到数据所透露的信息,就必须要找出数据的相关性,要找到相关性的,必须要用的到的就是统计学和数据模型,其实就是赫拉利提过的算法。让计算机利用算法大数据,就是人工智能。
人工智能的第一次提出是麦卡赛、明斯基为首的一批有远见卓识的年轻科学家在1956年达特茅斯夏季人工会议上提出的。之后的二十几年,几乎没有什么进展,直到20世纪70年代,IBM公司因为营业额过高,而被司法部进行反垄断调查,所以IBM的发展方向从去抢占市场份额转变到考虑如何让计算机变得聪明。
当时负责这个项目的尼里克就开始研究,和他的同事在研究语音识别的时候,无意中开创了一种采用统计学的方法解决智能问题的途径使用,因为这种方法需要使用大量的数据,所以成为数据驱动的方法。一开始呢,他们研究人工智能是研究的语音识别和翻译,因为互联网没出现的时候,那个数据不够多,所以发展比较慢。到了20世纪90年代,互联网兴起之后,数据的获得变得非常容易,所以数据的量变导致质变。其中一个大的突破是从2005年2月份,NIST(美国国家标准与技术研究所)组织了一个测评,就针对计算机翻译,机器翻译这个领域的测评,谷歌比其他团队领先了一大截。谷歌当时负责翻译这一块儿的是一个叫做奥克的博士。他是当时计算机翻译领域最最牛的专家,其实他的方法跟其他研究机构都差不多,但是它主要的区别就在于他用了大量的数据,建立了一个模型,才产生了量变到质变的飞跃。
从此以后,数据驱动的方法从70年代开始起步,然后21世纪由于互联网的出现的数据量剧增,数据驱动的方法也越来越明显,于是乎出现了大数据概念。
而真正定义机器智能的人是图灵,著名的图灵测试:一个裁判,同时坐在一个电脑和一个人的面前进行交流,如果这裁判无法辨别跟他交流的是人还是计算机,那么就证明这个计算机是具备人工智能的,计算机的奠基人,图灵。
近代的两次思维革命
作者提到思维是人类总结出的最重要的思维方式,也是现代文明的基础,那机械思维的形成可以追溯到古希腊,最具代表的是欧几里得的几何学和托勒密的地心说。这些思维是从欧几里得开始的,迪卡尔一直到牛顿,牛顿的方法被概括为机械思维,它的核心思想的可以概括为三句话,第一世界改变的规律是确定的,第二,因为是确定的,所以可以用简单的公式或者语言描述清楚,第三,这些规律应该是放之四海而皆准的。也就是先有一个确定性,然后就是因果关系,遵循分析,找到原因,根据原因得到结果的思维方式。比如青霉素的发现。读到这里的时候我想起李善友老师也曾讲过牛顿的机械论,还有家庭镇宝之书《欧几里得》,虽然读不懂,但拿来装X还是很有威慑力的。
随着我们对世界认知的越来越细之后,我们发现有很多问题都是不确定的,由于不确定性,我们无法按照机械论的方法思维去思考。因为没有规律,通常用概率模型表示,在此基础上,香农博士建立起一套完整的理论,将世界的不确定性和信息联系了起来,就是信息论。
信息论完全建立在不确定性的基础上,要消除这种不确定性,就要引入信息,要引入多少信息,就要看系统中的不确定性有多大,这种思路成为信息时代做事的根本方法。作者举了一个例子,就说互联网广告投放,比如说搜索类的广告,因为它的确定性比较大,所以它的价格就贵。
香农提出的第一定律和第二定律,它是信息时代的最基本定律,其作用堪比牛顿的力学定律。第一定律讲的是对于信号源发出的信息,设计一种编码,编码的平均长度一定大于信息源的信息熵。举个例子,就比如说编码汉字用的多的汉子,那就编码001,生僻的汉字,作为123455,那编码的平均长度了以后一定会超过他的不确定性,别说平均长度是一二三四,也就是信息熵(不确定性)。香农第二定律,通俗的讲就是信息的传递速率不可能超过信息的容量。比如说互联网发展过程当中,只有信息通道容量增加了,传输的速率才能上去,我们才能从阅读文字看的图片,看了视频再到高清视频。
所以,为了确定不确定性,作者用信息去表示不确定型,然后用数据去表示信息! 大数据的本质就是用信息现消除不确定性。过去是机械思维的方法论,现在是数据思维,过去找因果关系,现在找相关性。
大数据怎么改变商业?
在大数据的第一作用主要体现在相关性,时效性和个性化等,比如说谷歌和Netflix结合用户场景进行关键词推荐和影片推荐。大数据中一定可以找到找规律,比如税务部门从税收大数据可以检查出偷税漏税的行为,司法部门可以从居住大数据中发现毒品藏匿地点,还有吴军老师在谷歌利用大数据研究搜索方法等。
其次,大数据具备完备性,可以解决统计学采样的问题,样本可以等于全集。作者举了例子他在谷歌的时候用穷举法去设置网络关键词,利用词干设置单词的不同形式。
再次,大数据还可以把控每一个细节,比如奢侈品品牌Prada在标签植入芯片分析用户行为数据的细节。
作者将历史上一项技术带动整个社会变革的事情概括为遵循一个模式,新技术+原有产业=新产业:蒸汽机时代,现有产业+蒸汽机=新产业;电气时代,现有产业+电=新产业;信息时代,现有产业+大数据=新产业,现有产业+机器智能=新产业。举个例子,第二次工业革命电的使用使得传统传媒业和通讯业兴起,使得就是商业模式变成了打品牌,打广告等等。信息时代的商业模式从原来的靠产品挣钱,转变到用IT服务赚钱,原来制造设备的IBM, 诺基亚逐渐没落,微软谷歌等软件服务等软件服务公司兴起,服务业最重要性就凸现出来。
不管现有产业加什么,现代人类社会的发展终究是科技的发展,计算机网络的出现改变了各行各业,在过去半个多世纪里,摩尔定律的应用把我们带到了如今的数字化世界。
大数据和智能革命存在较多技术挑战
前面已经讲过数据的来源,再提炼一下:第一来源于电脑,其实就是电脑的生活轨迹,比如说电脑的运行日志等。第二来源是传感器,就是基于一个芯片收集的数据,比如摄像头,各种定位器等等。第三来源就是过去,没有被数字化存储的那些信息图书,档案等。还有就是这个互联网时代的UGC。在这个过程中,信息的存储,传输,处理,在当今技术下还是有很多很多困难的:
第一就是数据的收集的困难,谷歌等等一些大公司在获取这个用户手册收集数据的时候,有时候要拐好几个弯曲线救国,比如借助什么游戏机啦,或者是互联网机顶盒之类的设备获取用户数据。
第二是数据存储的难度,因为数据的增长速度已经是远远的高于存储设备的发展速度,甚至会高于摩尔定律的增长速度,所以数据的存储是具有相当大的难度,不仅需要考虑数据存储节省空间,而且还需要考虑数据怎么样便于使用。因为大数据的体量大,维度多,所以也就导致大数据的使用挖掘也同样具有很大的难度,比如在过去的数据当中,要找到一个最大值是很容易的,但是在如今互联网时代,如果要快速的找到电商行业销量最好的产品,采用上千倍的处理器,也不可能是几十秒内完成的事情。
可以说,基础设施决定上层发展,个人想起当年做经营分析的时候,从35万终端销售数据中去寻销量最高,且价格合适,且去除溢价最大被套利等因素等,通常因为excel的死机而崩溃,内心煎熬又无力吐槽…繁杂的大数据处理,就像沙子中淘金一样……所以理解了Google每天都有四成工程师在处理数据!确实需要更加完备的设备和智慧的算法,这些行业大拿实在值得敬佩!就是需要这种不断构建的基础,新知识才会产生,新的商业模式才会产生。在这个过程中数据的处理首先是筛选过滤,之后是机器算法,现在用到的算法大多是四十年前就是已经成熟的人工神经网络算法,最大熵模型等,吴军老师说道,一般的公司不可能有技术力量去开发这样的大工程,所以最好的解决方式就是专门让做机器学习的公司来提供服务。这一点我倒觉得可能一些大公司反而更加专业,现在这个行业的技术走在前段的还都是头部公司,当然作为创业风向,未来此类型的创业公司应该层出不穷。
未来社会和产业的图景
未来的农业:通过机器智能以及利用数据进行喷灌等技术,会使农业更加精准,水资源等得到更加充分的利用,或许家庭某个院子里都会出现喷水浇水的机器人。
未来的体育:依靠大数据去运营球队和运营运动员的比赛成绩而获得胜利,比如说09年勇士一直一直在NBA,用六年的时间,从倒数第二到冠军,利用大数据就是一个很好的案例,管理层使用大数据去制定战略和战术,突破了传统的两分得两分的方法而活得更高效的三分的方法,最终取得突破历史性的冠军。
未来的制造业:机器人会取代劳动力。特斯拉就是一个典型的案例,机器人装配汽车,特斯拉把自己定位为一家科技公司,而不是制造的汽车公司,他颠覆汽车行业所做的另一件事就是取消了存在的一个设计的汽车代理制度,他遵循产品生产和疏通的产业链,从设计生产一直到送到客户手上,都是计算机在工作。
未来的医疗:主要解决三个问题,成本持高不下,医疗资源的不平衡,还有一些不治之症。未来主要利用大数据,通过模式识别和图像理解进行影像分析,利用计算机智能帮助诊断,甚至机器人可以进行手术,这些智能程序的成本通常不到人工的1%。让计算机理解人的语言,根据化验结果和别人的描述去诊断简单的疾病,去解决医疗资源短缺的问题。治疗可能通过大数据的分析,每一种疾病会有不同的药品去医治,因为不同的人会有因为个体差异而有不同的药效。美国的谷歌的Calico公司和人类长寿公司已经可以利用庞大的数据去找到很多疾病的根源,接下来就是修复衰老基因,那么未来人类的寿命也是有希望大大加长的。
未来的律师和记者、编辑等,大数据的机器智能会取代人类,做案例分析和写稿。
未来的智能社会,各类社会资源都会得到更充分、更精准的利用,社会也更加精细化。区块链就是社会精细化的一个典型案例,从每一件商品制造出来,直到被消费者购买,都可以进行完整的跟踪。
科技发展总是让人忧心
暂且相信以上图景都会实现,社会生活处处智能,公共设施和谐有序,生活服务更加精细,不再堵车,恐怖袭击不再那么容易……也因此未来将是没有隐私的社会,这也是吴军老师在文中多次担忧的。比如说前段时间facebook泄露数据的事件,还有航空公司利用个人隐私区挣的利润的问题等等,活在互联网时代的公民,数据的无处不再让人活的多么赤裸裸。每一次技术革命,对社会造成的巨大冲击,都需要经过大约半个世纪甚至更长时间去消化。历来是科学和技术的发展就是一把双刃剑,甚至涉及到伦理的问题,也是社会发展演变当中不可避免的问题,但是社会终究要发展,要看人怎么规划使用管理智能社会里的一切。这是一个人文主义的时代,这是新时代,日益增长的美好生活总会有不平衡不充分的地方,但是办法总比困难多,不是吗?
你会担心被机器人抢掉饭碗吗?
看完整本书,思绪会超越现实,会焦虑未来的个人发展,会担心被机器人抢掉饭碗,会担心被时代所抛弃。吴军老师提到要做2%的人,才不被淘汰掉。需要说明的是,2%是基于美国劳工部的一个数据统计,据说在工业革命开始之后,机械化电气化和化肥农药的使用,使得发达国家只需要2%到5%的人就能提供全部人口所需的食品。也就是说,2%的人在养活着其他98%的人,因为智能社会的冲击,会带来同样的劳动力的恐慌及社会的恐慌。
能够从事智能行业必然不错,但其实只要有行业前端思想,不狭隘,不消极,哪怕从事的是传统行业,知道新技术怎么去改变自身存在的行业并为之积极努力,任何时候都不会被时代所抛弃,毕竟思维是自己的,认知也是自己的,就算时代想抛弃你的时候,也会问问你的意见。反倒是国家,在技术变革面前压力空前大,时间上的缓冲,社会生活的平衡发展,社会公平性的权衡,都是空前的挑战。