前言 人类的胜利
alphago战胜李世石,宣告了机器智能时代的到来。
机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。
未来的社会,属于那些具有创意的人,而不属于掌握某种技能做重复性工作的人。
第一章 数据——人类建造文明的基石
如果我们把资本和机械动能作为近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力。
现象、数据、信息、知识
数据的作用——文明的基石
数据的作用自古有之,但过去常常被忽视,其原因是:数据量不足;数据和信息之间的关系通常是相关性(而非因果),在缺乏大数据的时代,相关性很难习得。
相关性:使用数据的钥匙
统计学:点石成金的魔棒
样本的数量和质量,对推测总体极其重要。在具备大数据能力之前,通过有限样本去推测总体总是存在偏差。(切比雪夫不等式对偏差做了量化)
数学模型:数据驱动方法的基础
数据驱动方法的含义:完美的模型很难寻找,但只要数据量足够,就可以用若干个简单的模型去趋近。
分段函数的思想:假设完美模型是y=sin x,但人们并不知道。但是如果已知的点足够多,人们可以观察到,当x在(0,π)之间时,y和-(x-π/2)²+1有点像,当x在(π,2π)之间时,y和(x-3π/2)²-1有点像,可能就可以大致推测出将来的趋势。(这两个函数误差还是非常大的,但如果数据极大丰富,可以继续把区间分割小一点,归纳出来的各段函数的解释力就越强,各段拼凑起来有可能接近真相。)
数据驱动方法最大的优势在于,它可以在最大程度上得益于计算机技术的进步。相比之下,其他方法的改进需要理论的突破,周期非常长。(暴力拆解)
数据驱动方法是大数据的基础,也是智能革命的核心,更是一种新的思维方式。
人类应对不确定性的方法是“培养随机应变的能力”,而机器的方法是穷举所有可能的情形。
第二章 大数据和机器智能
在有大数据之前,计算机并不擅长解决智能问题,但今天可以变智能问题为数据问题。由此,全世界开始了新一轮的技术革命——智能革命。
1956年,香农、明斯基等人提出人工智能概念。
什么是机器智能?
图灵测试:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器拥有了智能。
人工智能的探索路径
鸟飞派:人工智能1.0
仿生学的思想:首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。1968年明斯基指出,鸟飞派研究方法无法让计算机获得智能。(比如语言翻译,给计算机定义一堆的语法规则)
另辟蹊径:数据驱动方法
到了20世纪70年代,人们开始探索机器智能的另一条道路,即采用数据和超级计算的方法:机器不擅长逻辑推理,但是在死记硬背方面比人强,只要有价值的数据足够多,它就能找到其中的对应关系。而且随着数据的增加,系统会越来越好用。
在八九十年代,数据驱动方法得到缓慢在稳定的发展。
数据创造奇迹:量变到质变
2005年是大数据元年,因为之前在机器翻译领域从来没有技术积累的google,以巨大优势打败了全世界所有机器翻译研究团队。google的方法其实没有创新,但是使用的数据量远超其他团队。
进入21世纪后,由于互联网的出现,使可用的数据量剧增,数据驱动方法的优势越来越明显,成为主流。
大数据的特征:体量大+多维度+完备性
大数据使穷举法这样的“笨方法”,有了用武之地。
大数据可以克服传统统计方法的缺点:设计问卷可能有主管偏差、选取样本可能不随机、受众因为知道在测试可能说谎、半人工统计数据。
大数据的科学基础是信息论,其本质是利用信息消除不确定性。
第三章 思维的革命
大数据思维的核心:在不确定性剧增的今天,寻找因果关系越来越难;但是借助于爆发的数据,我们通过相关关系,同样可以得到问题的答案。这是一种全新的思维方式,被机械思维统治四百多年人类正在适应它的到来。
机械思维的核心:世界规律是确定的,可以通过逻辑推理和因果关系认识世界。代表人物是欧几里得、托勒密和牛顿。
1、世界变化的规律是确定的;(爱因斯坦说,上帝不掷骰子。)
2、世界是可认识的,而且可以用简单的公式和语言描述清楚;
3、认识到的规律,应该是通用的,放之四海而皆准的。
机械思维开启了工业革命,人类的财富、寿命、认知边界都因此极大提升。但是今天其局限性越来越明显,一方面因果关系越来越难寻找,另一方面世界其实充满了不确定性,上帝也掷骰子(量子测不准原理、股票走向、经济学预测等)。
香农的信息论:熵,一种新的世界观和方法论
1948年,香农在信息论中借用了热力学里熵的概念,提出了“信息熵”,用来描述一个信息系统的不确定性。即,如果我们对一个事物一无所知,就需要引入大量的信息;而如果我们对某件事情已经很了解了,就只需要引入少量的信息即可。这就首次回答了“如何度量信息的大小”问题,并将信息和世界的不确定性联系起来。(承认世界是不确定的,信息可以消除不确定性)
(在此之前,鲁道夫·克劳修斯提出了“熵”的概念,用以描述一个系统中趋向于恒温的程度。当系统达到恒温时,系统越无序,熵最大,就无法做功了。后来波斯曼尔等发现,一个封闭系统的熵永远是不断递增的)
在工业时代,谁掌握了资本谁就能获得财富;在信息时代,谁掌握了信息谁就能获取财富。
大数据思维、人工智能,其实就是通过数据去消除不确定性。
香农第一定律:
也称香农信源编码定律。假定有一个信息源,里面有N种信息,我们要对其编码,那么编码的平均长度一定大于该信源的信息熵。此外,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。(比如对汉字进行编码,只要把最短的编码分配给最常见的汉字即可)
香农第二定律:
信息的传播速率不可能超过信道的容量。
这个定律在信息时代的作用,堪比牛顿力学定律对机械时代的作用。
最大熵原理:
当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。(区别于我们使用了几百年的“大胆假设,小心求证”方法论)最大熵原理是信息时代的方法论,广泛用于机器学习。
熵,成为了信息论和不确定性的代名词,代表了人类对世界认知度的最高境界。
大数据可以直接找到强相关关系,即使不知道原因。先有结果再找原因,成为人们继因果关系之后的又一把武器。
大数据思维和机械思维并非完全对立,它更多是对后者的补充。如果我们能找到确定的因果关系,那依然是最好的结果。
第四章 大数据和商业
未来,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
案例一:数据本来就存在,现在通过分析产生新价值
警察局:通过用电数据的监测分析,找出在家里种植大麻的人。
税务部门:通过同类餐馆历史纳税数据的分析,找出偷税漏税的餐馆。
塔吉特超市:通过客户历史采购记录,找出怀孕的客户进行针对性营销。
亚马逊:通过用户的购买行为,进行个性化推荐。
netflix:邮寄DVD做的不温不火,改在线观影之后,通过用户的观影行为进行个性化推荐,发展非常快。
google:通过用户的搜索记录,进行关键词推荐;即使用户不输入关键词,也会有自动下拉条
案例二:通过传感器和RFID收集新数据,再进行分析
酒吧:之前,酒吧有1/4的酒被酒保偷偷喝掉,但是老板无能为力。现在,在酒架安装测重量的传感器,每个酒瓶贴上RFID芯片,就可以知道哪一瓶酒在何时被倒了多少酒,和交易记录联系起来。在此基础上,可以延伸出BI、预警、行业报告等业务。
PRADA:对奢侈品而言,购物过程和设计、材质一样重要。但之前管理者无法知道某件产品卖得不好,是设计、材质问题,还是购物体验不好。给每件衣服加上RFID芯片,给试衣间安上阅读器。
金风科技:过去是一锤子买卖,现在管理者可以知道每台设备的运转情况(时间、地点、发电量、是否运转)。同样可以往BI、预警、行业报告延伸。
google无人驾驶车:装有十多个传感器,每秒进行几十次扫描,并将数据传输到google中心处理。(但是只能去google扫过街的地方,收集所有的建筑物信息、街道信息、人流密度等等,事先模拟每一种情形。)
从历史经验看大数据的作用
原有产业+蒸汽机=新产业
原有产业+电力=新产业
原有产业+摩尔定律=新产业
现有产业+大数据=新产业
现有产业+机器智能=新产业
第五章 大数据和智能革命的技术挑战
技术的拐点
科学的发展并非是匀速的,历史上有几次大爆发:1、1666年牛顿发明了微积分、力学三定律和万有引力定律,完成了光学分析;2、1905年爱因斯坦完成了分子说、光电效应,提出了狭义相对论。
今天,我们可能再次站在历史的拐点:机器智能超过人类。数据呈爆炸式积累、存储读取技术、传输技术、云计算等技术在十年前逐渐成熟,但机器智能仍面临几点挑战:
数据收集:看似简单的难题
数据的所有者不愿意把数据共享出来,创业者只能自己找数据;
刻意收集的数据往往不具有代表性,有价值的数据往往是不经意间收集的,或者兜了一个大圈收集的;
数据存储:可能重新成为问题
当人们意识到大数据的价值,数据增长可能超过存储读取技术的发展;
不同数据的格式化问题;(强调数据收集的无目的性,加剧了格式化问题)
并行计算和实时处理:并非增加机器那么简单
有很多任务无法100%的拆分,能拆分的部分也无法做到100%的平均;
实时问题:大数据运算通常需要几十分钟;
数据挖掘:机器智能的关键
使用大数据的第一步:对数据过滤和整理(考验自然语言理解技术);
SNR:信号与噪声比(signal noise ratio),描述信号的质量。(降噪处理:损失部分数据,提高信噪比)
第二步:机器学习
相关算法在40年前就已成熟:人工神经网络算法、最大熵模型、逻辑自回归等;
过去数据量和计算能力不够,机器学习的应用范围较窄;但是即使目前数据量大了之后,机器学习也面临许多难点。数据量的增加,会导致计算时间的剧增。
google的突破,在于把一个很大的模型上百万参数同时训练问题,简化为能够分布到上万台服务器上的小问题,这样使得大型的人工神经网络训练成为可能。(工程上的突破)
几十年前的算法是否会影响机器学习效果?从总体来看,大部分机器学习算法是等效的,只有量的差别,没有质的差别;而量的差别可以通过数据量来弥补。对于特定的问题,确实会有一个机器算法比其他算法好的情况。
未来,会出现专门做机器学习软件的公司,为需要使用大数据和机器智能的公司提供服务。
数据安全的技术
1、保证用户的数据不损坏、不丢失;
2、保证数据不会被非法查看或者盗用;
机器学习可以利用大数据(日志信息),学习公司的正常业务流程;非法闯入者由于不熟悉流程,将被禁止访问。
日本有个发明家将其用于汽车防盗:能够根据主人平时的身材、坐姿、动作,判断是否为陌生人驾驶。
保护隐私:靠大数据长期挣钱的必要条件
大数据可以从很多支离破碎的信息中,完全复原一个人或者一个组织的信息。
人往往更在意便利性,而非安全或者隐私。
在淘宝,许多人总是买到假货,而许多人可以买到真货。原因是商家了解这个客户是否难搞。
航空公司:了解到某人近期准备出游,而且过去对价格不太敏感,就给出较高的报价。
1、简单的屏蔽部分个人信息:在大数据之下并没有用,多维度信息可以相互复原;
2、对数据做加密处理:只能让经手的数据工程师无法窥探隐私,但是掌握数据的公司还是可以;
3、双向监视:当使用者看计算机时,计算机也在看使用者。窥探他人的人,其窥探行为本身也会暴露。
第六章 未来智能化产业
传统产业升级+新产业的诞生。
未来的农业
以色列的滴灌技术:将水和肥料直接送达植物根系;传感器采集植物状况和湿度,决定剂量。
Droplet:家庭院落自动喷水机器人,测试各地的湿度和植物高度,决定喷水角度和喷水量。不漏掉任何一片植物,也不重复喷水。如果明后天会下雨,就停止浇灌。
未来的体育:
勇士队:垃圾球队利用大数据,在2015年获得NBA总冠军。把明星球员卖掉,不再强调扣篮和中锋,而是追求投3分球。因为从数据来看,投3分更节省体力,更有效率。此外,利用数据及时调整比赛中的战术。
女排:中国女排靠水平和拼搏,美国女排靠高速摄像机和统计。
大数据对体育的价值,还在于分析和总结优秀选手的动作姿势,用于纠正其他运动员。
未来的制造业:
特斯拉:尽可能的用机器人替代工人:降低成本、实现个性化定制。
从设计开始,就和消费者建立联系,从而砍掉了中间批发商。
未来的医疗:
医疗影像分析系统:诊断能力胜过专科医生。没有哪个医生能学习几百万份的病例,但计算机能。
达·芬奇手术系统:利用机器人做手术,机械臂的的灵活性远超过人,带有摄像头进入人体内手术,医生可以远程干预。目前全世界共装配了3000多台,完成了300万例手术。
IBM沃特森(Watson),可以分析各种数据和医学影像,帮助疾病诊断和医疗信息的管理。在肿瘤领域,已经可以达到中等医生水平。
癌症:如果针对每一个人基因的最新变化,快速研制新药,快过癌细胞的变化,是可以遏制癌症的。这样成本太高,但是所有的基因错误不过万级,所有的癌症不过百级,其组合不过千万,在IT上是不算大的。如果能利用大数据技术,给每一种可能的组合编号,找到对应相应的药物,个性化用药就不是难事了。(穷尽的思路)
长寿问题:利用临床数据找出衰老基因,再利用基因编辑技术进行修复。
未来,同一种疾病会用不同的药品治疗,同一个病人今天用的药和昨天不一样。
未来的律师业:(阅读能力)
机器智能可以阅读和分析法律文献,使律师的效率提高500倍,打官司的成本降低99%。今天,美国法学院的毕业生,比之前更难找到正式工作了。
未来的记者和编辑:(写作能力)
学习过往所有的财经类文章,提取最新的数据,就可以写出不错的文章。
第七章 智能革命和未来社会
1、积极影响:
大数据可以避免拥堵和踩踏
对路线提前规划,对上班族的出门时间做出建议,可以节省上班族20%的通勤时间;
目前的红路灯都是孤岛,每个红灯的时间是固定的,没有根据车流量大小进行实时调整;
反恐;
医药行业的个性化:避免小病找专家,或者找错专家;
2、负面影响:
无隐私的社会:对每个人清晰的画像;如果让保险公司知道每个人未来得病的几率,那就会拒绝这些人投保或者缴纳更高的保费;
机器人抢掉人的饭碗:历次革命,在初期能获益的总是少数人,大部分人受损害,比如机械化干掉的农民,被流水线干掉的手工作坊,被自动化干掉的生产工人;长远来看,大部分都能获益,但这个过程往往需要50年以上的时间。下岗的这些人,往往很难再就业,只能寄希望于他们的儿子,学习新社会的新技能,以两代人的时间去完成转变。当前,信息革命还没有完全消化,新一代的智能革命的冲击又开始了。
积极拥抱新时代,争当2%的人。