前言人类的胜利

alphago战胜李世石，宣告了机器智能时代的到来。

机器获得智能的方式和人类不同，它不是靠逻辑推理，而是靠大数据和智能算法。

未来的社会，属于那些具有创意的人，而不属于掌握某种技能做重复性工作的人。

第一章数据——人类建造文明的基石

如果我们把资本和机械动能作为近代化的推动力的话，那么数据将成为下一次技术革命和社会变革的核心动力。

现象、数据、信息、知识

数据和知识的关系

数据的作用——文明的基石

人们使用数据的方式

数据的作用自古有之，但过去常常被忽视，其原因是：数据量不足；数据和信息之间的关系通常是相关性（而非因果），在缺乏大数据的时代，相关性很难习得。

相关性：使用数据的钥匙

统计学：点石成金的魔棒

样本的数量和质量，对推测总体极其重要。在具备大数据能力之前，通过有限样本去推测总体总是存在偏差。（切比雪夫不等式对偏差做了量化）

数学模型：数据驱动方法的基础

数据驱动方法的含义：完美的模型很难寻找，但只要数据量足够，就可以用若干个简单的模型去趋近。

分段函数的思想：假设完美模型是y=sin x，但人们并不知道。但是如果已知的点足够多，人们可以观察到，当x在（0，π）之间时，y和-（x-π/2）²+1有点像，当x在（π，2π）之间时，y和（x-3π/2）²-1有点像，可能就可以大致推测出将来的趋势。（这两个函数误差还是非常大的，但如果数据极大丰富，可以继续把区间分割小一点，归纳出来的各段函数的解释力就越强，各段拼凑起来有可能接近真相。）

y=sin x

数据驱动方法最大的优势在于，它可以在最大程度上得益于计算机技术的进步。相比之下，其他方法的改进需要理论的突破，周期非常长。（暴力拆解）

数据驱动方法是大数据的基础，也是智能革命的核心，更是一种新的思维方式。

人类应对不确定性的方法是“培养随机应变的能力”，而机器的方法是穷举所有可能的情形。

第二章大数据和机器智能

在有大数据之前，计算机并不擅长解决智能问题，但今天可以变智能问题为数据问题。由此，全世界开始了新一轮的技术革命——智能革命。

1956年，香农、明斯基等人提出人工智能概念。

什么是机器智能？

图灵测试：让一台机器和一个人坐在幕后，让一个裁判同时与幕后的人和机器进行交流，如果这个裁判无法判断自己交流的对象是人还是机器，就说明这台机器拥有了智能。

人工智能的探索路径

鸟飞派：人工智能1.0

仿生学的思想：首先了解人类是如何产生智能的，然后让计算机按照人的思路去做。1968年明斯基指出，鸟飞派研究方法无法让计算机获得智能。（比如语言翻译，给计算机定义一堆的语法规则）

明斯基：人工智能奠基人

另辟蹊径：数据驱动方法

到了20世纪70年代，人们开始探索机器智能的另一条道路，即采用数据和超级计算的方法：机器不擅长逻辑推理，但是在死记硬背方面比人强，只要有价值的数据足够多，它就能找到其中的对应关系。而且随着数据的增加，系统会越来越好用。

在八九十年代，数据驱动方法得到缓慢在稳定的发展。

数据创造奇迹：量变到质变

2005年是大数据元年，因为之前在机器翻译领域从来没有技术积累的google，以巨大优势打败了全世界所有机器翻译研究团队。google的方法其实没有创新，但是使用的数据量远超其他团队。

进入21世纪后，由于互联网的出现，使可用的数据量剧增，数据驱动方法的优势越来越明显，成为主流。

大数据的特征：体量大+多维度+完备性

大数据使穷举法这样的“笨方法”，有了用武之地。

大数据可以克服传统统计方法的缺点：设计问卷可能有主管偏差、选取样本可能不随机、受众因为知道在测试可能说谎、半人工统计数据。

大数据的科学基础是信息论，其本质是利用信息消除不确定性。

第三章思维的革命

大数据思维的核心：在不确定性剧增的今天，寻找因果关系越来越难；但是借助于爆发的数据，我们通过相关关系，同样可以得到问题的答案。这是一种全新的思维方式，被机械思维统治四百多年人类正在适应它的到来。

机械思维的核心：世界规律是确定的，可以通过逻辑推理和因果关系认识世界。代表人物是欧几里得、托勒密和牛顿。

1、世界变化的规律是确定的；（爱因斯坦说，上帝不掷骰子。）

2、世界是可认识的，而且可以用简单的公式和语言描述清楚；

3、认识到的规律，应该是通用的，放之四海而皆准的。

机械思维开启了工业革命，人类的财富、寿命、认知边界都因此极大提升。但是今天其局限性越来越明显，一方面因果关系越来越难寻找，另一方面世界其实充满了不确定性，上帝也掷骰子（量子测不准原理、股票走向、经济学预测等）。

香农的信息论：熵，一种新的世界观和方法论

1948年，香农在信息论中借用了热力学里熵的概念，提出了“信息熵”，用来描述一个信息系统的不确定性。即，如果我们对一个事物一无所知，就需要引入大量的信息；而如果我们对某件事情已经很了解了，就只需要引入少量的信息即可。这就首次回答了“如何度量信息的大小”问题，并将信息和世界的不确定性联系起来。（承认世界是不确定的，信息可以消除不确定性）

（在此之前，鲁道夫·克劳修斯提出了“熵”的概念，用以描述一个系统中趋向于恒温的程度。当系统达到恒温时，系统越无序，熵最大，就无法做功了。后来波斯曼尔等发现，一个封闭系统的熵永远是不断递增的）

在工业时代，谁掌握了资本谁就能获得财富；在信息时代，谁掌握了信息谁就能获取财富。

大数据思维、人工智能，其实就是通过数据去消除不确定性。

香农第一定律：

也称香农信源编码定律。假定有一个信息源，里面有N种信息，我们要对其编码，那么编码的平均长度一定大于该信源的信息熵。此外，一定存在一种编码方式，使得编码的平均长度无限接近于它的信息熵。（比如对汉字进行编码，只要把最短的编码分配给最常见的汉字即可）

香农第二定律：

信息的传播速率不可能超过信道的容量。

这个定律在信息时代的作用，堪比牛顿力学定律对机械时代的作用。

最大熵原理：

当我们要对未知的事件寻找一个概率模型时，这个模型应当满足我们所有已经看到的数据，但是对未知的情况不要做任何主观假设。（区别于我们使用了几百年的“大胆假设，小心求证”方法论）最大熵原理是信息时代的方法论，广泛用于机器学习。

熵，成为了信息论和不确定性的代名词，代表了人类对世界认知度的最高境界。

大数据可以直接找到强相关关系，即使不知道原因。先有结果再找原因，成为人们继因果关系之后的又一把武器。

大数据思维和机械思维并非完全对立，它更多是对后者的补充。如果我们能找到确定的因果关系，那依然是最好的结果。

第四章大数据和商业

未来，大数据和机器智能的工具就如同水和电这样的资源，由专门的公司提供给全社会使用。

案例一：数据本来就存在，现在通过分析产生新价值

警察局：通过用电数据的监测分析，找出在家里种植大麻的人。

税务部门：通过同类餐馆历史纳税数据的分析，找出偷税漏税的餐馆。

塔吉特超市：通过客户历史采购记录，找出怀孕的客户进行针对性营销。

亚马逊：通过用户的购买行为，进行个性化推荐。

netflix：邮寄DVD做的不温不火，改在线观影之后，通过用户的观影行为进行个性化推荐，发展非常快。

google：通过用户的搜索记录，进行关键词推荐；即使用户不输入关键词，也会有自动下拉条

案例二：通过传感器和RFID收集新数据，再进行分析

酒吧：之前，酒吧有1/4的酒被酒保偷偷喝掉，但是老板无能为力。现在，在酒架安装测重量的传感器，每个酒瓶贴上RFID芯片，就可以知道哪一瓶酒在何时被倒了多少酒，和交易记录联系起来。在此基础上，可以延伸出BI、预警、行业报告等业务。

PRADA：对奢侈品而言，购物过程和设计、材质一样重要。但之前管理者无法知道某件产品卖得不好，是设计、材质问题，还是购物体验不好。给每件衣服加上RFID芯片，给试衣间安上阅读器。

金风科技：过去是一锤子买卖，现在管理者可以知道每台设备的运转情况（时间、地点、发电量、是否运转）。同样可以往BI、预警、行业报告延伸。

google无人驾驶车：装有十多个传感器，每秒进行几十次扫描，并将数据传输到google中心处理。（但是只能去google扫过街的地方，收集所有的建筑物信息、街道信息、人流密度等等，事先模拟每一种情形。）

从历史经验看大数据的作用

原有产业+蒸汽机=新产业

原有产业+电力=新产业

原有产业+摩尔定律=新产业

现有产业+大数据=新产业

现有产业+机器智能=新产业

第五章大数据和智能革命的技术挑战

技术的拐点

科学的发展并非是匀速的，历史上有几次大爆发：1、1666年牛顿发明了微积分、力学三定律和万有引力定律，完成了光学分析；2、1905年爱因斯坦完成了分子说、光电效应，提出了狭义相对论。

今天，我们可能再次站在历史的拐点：机器智能超过人类。数据呈爆炸式积累、存储读取技术、传输技术、云计算等技术在十年前逐渐成熟，但机器智能仍面临几点挑战：

数据收集：看似简单的难题

数据的所有者不愿意把数据共享出来，创业者只能自己找数据；

刻意收集的数据往往不具有代表性，有价值的数据往往是不经意间收集的，或者兜了一个大圈收集的；

数据存储：可能重新成为问题

当人们意识到大数据的价值，数据增长可能超过存储读取技术的发展；

不同数据的格式化问题；（强调数据收集的无目的性，加剧了格式化问题）

并行计算和实时处理：并非增加机器那么简单

有很多任务无法100%的拆分，能拆分的部分也无法做到100%的平均；

实时问题：大数据运算通常需要几十分钟；

数据挖掘：机器智能的关键

使用大数据的第一步：对数据过滤和整理（考验自然语言理解技术）；

SNR：信号与噪声比（signal noise ratio），描述信号的质量。（降噪处理：损失部分数据，提高信噪比）

第二步：机器学习

相关算法在40年前就已成熟：人工神经网络算法、最大熵模型、逻辑自回归等；

过去数据量和计算能力不够，机器学习的应用范围较窄；但是即使目前数据量大了之后，机器学习也面临许多难点。数据量的增加，会导致计算时间的剧增。

google的突破，在于把一个很大的模型上百万参数同时训练问题，简化为能够分布到上万台服务器上的小问题，这样使得大型的人工神经网络训练成为可能。（工程上的突破）

几十年前的算法是否会影响机器学习效果？从总体来看，大部分机器学习算法是等效的，只有量的差别，没有质的差别；而量的差别可以通过数据量来弥补。对于特定的问题，确实会有一个机器算法比其他算法好的情况。

未来，会出现专门做机器学习软件的公司，为需要使用大数据和机器智能的公司提供服务。

数据安全的技术

1、保证用户的数据不损坏、不丢失；

2、保证数据不会被非法查看或者盗用；

机器学习可以利用大数据（日志信息），学习公司的正常业务流程；非法闯入者由于不熟悉流程，将被禁止访问。

日本有个发明家将其用于汽车防盗：能够根据主人平时的身材、坐姿、动作，判断是否为陌生人驾驶。

保护隐私：靠大数据长期挣钱的必要条件

大数据可以从很多支离破碎的信息中，完全复原一个人或者一个组织的信息。

人往往更在意便利性，而非安全或者隐私。

在淘宝，许多人总是买到假货，而许多人可以买到真货。原因是商家了解这个客户是否难搞。

航空公司：了解到某人近期准备出游，而且过去对价格不太敏感，就给出较高的报价。

1、简单的屏蔽部分个人信息：在大数据之下并没有用，多维度信息可以相互复原；

2、对数据做加密处理：只能让经手的数据工程师无法窥探隐私，但是掌握数据的公司还是可以；

3、双向监视：当使用者看计算机时，计算机也在看使用者。窥探他人的人，其窥探行为本身也会暴露。

第六章未来智能化产业

传统产业升级+新产业的诞生。

未来的农业

以色列的滴灌技术：将水和肥料直接送达植物根系；传感器采集植物状况和湿度，决定剂量。

Droplet：家庭院落自动喷水机器人，测试各地的湿度和植物高度，决定喷水角度和喷水量。不漏掉任何一片植物，也不重复喷水。如果明后天会下雨，就停止浇灌。

未来的体育：

勇士队：垃圾球队利用大数据，在2015年获得NBA总冠军。把明星球员卖掉，不再强调扣篮和中锋，而是追求投3分球。因为从数据来看，投3分更节省体力，更有效率。此外，利用数据及时调整比赛中的战术。

女排：中国女排靠水平和拼搏，美国女排靠高速摄像机和统计。

大数据对体育的价值，还在于分析和总结优秀选手的动作姿势，用于纠正其他运动员。

未来的制造业：

特斯拉：尽可能的用机器人替代工人：降低成本、实现个性化定制。

从设计开始，就和消费者建立联系，从而砍掉了中间批发商。

未来的医疗：

医疗影像分析系统：诊断能力胜过专科医生。没有哪个医生能学习几百万份的病例，但计算机能。

达·芬奇手术系统：利用机器人做手术，机械臂的的灵活性远超过人，带有摄像头进入人体内手术，医生可以远程干预。目前全世界共装配了3000多台，完成了300万例手术。

IBM沃特森（Watson），可以分析各种数据和医学影像，帮助疾病诊断和医疗信息的管理。在肿瘤领域，已经可以达到中等医生水平。

癌症：如果针对每一个人基因的最新变化，快速研制新药，快过癌细胞的变化，是可以遏制癌症的。这样成本太高，但是所有的基因错误不过万级，所有的癌症不过百级，其组合不过千万，在IT上是不算大的。如果能利用大数据技术，给每一种可能的组合编号，找到对应相应的药物，个性化用药就不是难事了。（穷尽的思路）

长寿问题：利用临床数据找出衰老基因，再利用基因编辑技术进行修复。

未来，同一种疾病会用不同的药品治疗，同一个病人今天用的药和昨天不一样。

未来的律师业：（阅读能力）

机器智能可以阅读和分析法律文献，使律师的效率提高500倍，打官司的成本降低99%。今天，美国法学院的毕业生，比之前更难找到正式工作了。

未来的记者和编辑：（写作能力）

学习过往所有的财经类文章，提取最新的数据，就可以写出不错的文章。

第七章智能革命和未来社会

1、积极影响：

大数据可以避免拥堵和踩踏

对路线提前规划，对上班族的出门时间做出建议，可以节省上班族20%的通勤时间；

目前的红路灯都是孤岛，每个红灯的时间是固定的，没有根据车流量大小进行实时调整；

反恐；

医药行业的个性化：避免小病找专家，或者找错专家；

2、负面影响：

无隐私的社会：对每个人清晰的画像；如果让保险公司知道每个人未来得病的几率，那就会拒绝这些人投保或者缴纳更高的保费；

机器人抢掉人的饭碗：历次革命，在初期能获益的总是少数人，大部分人受损害，比如机械化干掉的农民，被流水线干掉的手工作坊，被自动化干掉的生产工人；长远来看，大部分都能获益，但这个过程往往需要50年以上的时间。下岗的这些人，往往很难再就业，只能寄希望于他们的儿子，学习新社会的新技能，以两代人的时间去完成转变。当前，信息革命还没有完全消化，新一代的智能革命的冲击又开始了。

积极拥抱新时代，争当2%的人。

《吴军：智能时代》读书笔记

《吴军：智能时代》读书笔记

前言人类的胜利

第一章数据——人类建造文明的基石

第二章大数据和机器智能

第三章思维的革命

第四章大数据和商业

第五章大数据和智能革命的技术挑战

第六章未来智能化产业

第七章智能革命和未来社会

推荐阅读更多精彩内容

《吴军：智能时代》读书笔记

前言 人类的胜利

第一章 数据——人类建造文明的基石

第二章 大数据和机器智能

第三章 思维的革命

第四章 大数据和商业

第五章 大数据和智能革命的技术挑战

第六章 未来智能化产业

第七章 智能革命和未来社会

推荐阅读更多精彩内容

前言人类的胜利

第一章数据——人类建造文明的基石

第二章大数据和机器智能

第三章思维的革命

第四章大数据和商业

第五章大数据和智能革命的技术挑战

第六章未来智能化产业

第七章智能革命和未来社会