近日读了吴军博士的《智能时代》一书,全书通过大量实例深入浅出的讲述了大数据和人工智能的定义、作用、发展、现状以及未来趋势等等。个人觉得很有收获,所以在这里做一个分享,有兴趣的朋友建议去读一下原书,相信会有更多的收获。
1、数据在人类文明中起到了基石的作用,人类文明过程就是:获取数据->分析数据->建立模型->预测未来。
举例:古埃及人通过观察天象来判断一年中的农耕时间和节气(天文学的起源)。
美索不达米亚人通过天文观测数据能够计算出月亮和五大行星的运行周期,并能够预测日食和月食。
2、统计学,有时又被称为数理统计,是建立在概率论基础上之上,收集、处理和分析数据,找到数据内在的关联性和规律性的学科。
统计学在数据采集上有两个要点:量和质。在大数据出现之前,想要设计出具有代表性样本的问题难以解决。
举例:蒋介石迷信1948年盖洛普公司预测美国大选结果(前2次都预测准确),结果最终压错宝。
3、数据驱动方法:数学模型上,只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。
随着数据量和计算能力以指数级的速度递增,数据驱动的方法可以非常准确。
举例:AlphaGo能从几十万盘人类高手对弈中分析总结,而任何一个人类高手是一辈子也学不完这么多盘棋的。
4、什么是机器智能
1)1946年第一台电子计算机ENAIC诞生,发现电脑一词的不是任何科学家,而是英国元帅蒙巴顿公爵。
2)真正定义什么是机器智能的还是电子计算机奠基人:阿兰·图灵博士。他提出了验证机器有无智能的判别方法,即让一台机器和一个人坐在幕后,让一个裁判同时跟幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能,这种方法被后人称为图灵测试。
3)计算机科学家认为如果计算机实现了以下几件事中的一件,就可以认为它有图灵所说的那种智能:语音识别、机器翻译、文本的自动摘要或者写作、战胜人类的国际象棋冠军、自动回答问题。今天,计算机已经做到了这些事情,有些时候还能超额完成任务。
5、全世界各个领域的数据不断向外扩展,各个维度的数据从点和线渐渐练成了网,在这样的背景下,出现了大数据。2005年是大数据元年,通过数据量的剧增,使得数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。
举例:Google机器翻译在2005年NIST评比结果上一鸣惊人,大幅度领先其余团队。
6、大数据的特征:体量大、多维度、全面性、时效性和抽象意义上的大。
7、通过大数据,将智能问题变为数据问题,计算机就能解决人类智能的问题了。
举例:AlphaGo下棋的原理就是根据历史数据,考虑对手可能采用的走法,对不同的状态给出可能性评估,然后根据对方下一步走法对盘面的影响,找到一个最有利于自己的状态,并走出这步棋。
8、今天我们面临的复杂情况,已经不能用机械时代的思维,通过因果关系来解决问题了,而是要采用大数据思维。
大数据思维的核心:从大量的数据中直接找到答案,即使不知道原因。
举例:Google其实是一家数据公司,成功不仅仅是靠技术和数据,更是采用了大数据思维。
9、没有大数据之前,我们寻找一个规律很困难,需要经历“假设-求证-再假设-再求证”这样一个漫长的过程,找到规律的成本很高。而有了大数据以后,这类问题就变得简单了。
举例:美国警察局通过用电数据抓到在豪宅盆栽种植大麻的人。
美国税务局通过对同类企业日常经营数据来圈定小企业漏税,从而减少偷漏税的情况。
10、大数据在商业活动中从细节到整体再从整体到细节双向的流动,不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节。
举例:硅谷创业者通过改造酒吧酒架(装上测量重量的传感器以及RFID芯片和读写器)来解决老板不在店盯着,也能监督和改善经营。
普拉达(Prada)通过在标签嵌入RFID芯片,能够搜集试衣信息(分析具体卖的不好衣服的情况)以及智能推荐试衣(不同尺码和颜色的情况,推荐搭配)。
11、从历史经验看大数据和人工智能的作用:现有产业+大数据 =新产业;现有产业+人工智能=新产业。
12、技术将改变商业模式,在大数据时代,IT软件和IT服务依然会是IT领域最好的行业。
举例:美国GE公司通过在冰箱上提示用户更换冰箱取水器滤芯并能一键下单,一年通过滤芯的利润就能抵上一台冰箱的利润。
13、数据收集:看似简单的难题,因为大数据常常以全集作为样本,而不是过去的抽样调查。直接搜集全相当困难,聪明的公司往往就是绕一个弯路,间接地收集数据。
举例:Google要获取每一个家庭的电视收视情况,直接自己做盒子并没有成功,转而通过收购wifi智能空调调节器公司以及家庭录像监控公司,来获得更多居家数据。
14、数据挖掘是机器智能的关键,信噪比高的数据质量更好。
15、机器学习的过程无一例外是一个不断迭代、不断进步的过程。用机器学习的专业术语来说就是期望值最大化的过程:只要事先定出一个学习目标,算法就会不断优化模型,让它越来越接近真实的情况。
16、数据安全有两层含义:首先要保证用户的数据不损坏、不丢失,还要保证数据不会被偷走或者盗用。
在大数据时代,由于数据量巨大,一旦丢失或者被盗,损失也是巨大的。同时如果黑客得到多维度的数据,也像数据科学家一样来对大数据进行分析,那么机密泄漏的损失就大得难以估量。
举例:比商业数据丢失后损失更大的是医疗记录被盗,在美国黑市上,一个医疗记录的卖家是个人商业数据的50倍左右。
17、大众对自己的隐私保护不在意,更看重便利性,在大数据时代将会损害自己的利益。
当移动互联网(包括物联网)、大数据和机器智能三者叠加到一起之后,我们不再有隐私可言,因为多维度的信息凑到一起能够得到一个人完整的画像。
保护好隐私对大数据长远的发展非常重要,人们不可能看到隐私最终完全受到侵犯,而依然任由大数据继续发展下去。隐私受到侵犯已经成为大数据和机器智能发展的障碍。
举例:在电子商务网站上,同样的价格有些人总是买到假货,有些人却买到真货,是因为商家通过掌握的个人数据,来判断用户是软柿子还是刺头,通过欺软怕硬来给他们带来更多利益。
美国很多航空公司通过方法发现询票者过去对票价不是很敏感时,给出的报价会比其他人高很多,可以提高10%左右的销售额,对于净利润只有0.2%的航空业来说,这是几十倍的利润提高。
18、未来的智能化产业
1)未来的农业
引入机器智能以后,将能更精确的灌溉,大幅度节省浇水量(95%以上),并且在不破坏生态环境的情况下,提高单产,恢复环境。
举例:自然环境很差,严重缺水的以色列(可耕种面积不到五分之一,降水量比中国最缺水的地方还少)通过科技兴农,许多农产品单产量都领先于世界水平,同时让荒漠逐渐变成绿洲。
硅谷小公司发明的Droplet喷水机器人能够节省95%以上的浇水量。
2)未来的体育
离不开大数据和机器智能,它们将会利用数据指导训练,并总结分析,仅靠天赋和苦练将不足以取得最好的成绩。
举例:来自硅谷的勇士一直成绩不佳,被来自硅谷的投资人收购后,利用数据分析结果,认为NBA所追求的打法是低效率的(球队寻找身体条件突出的队员,全队费大力气攻到篮下得2分),发现最有效的进攻是眼花缭乱的传球和准确投篮,在这个思想指导下,重新改变战术和挑选球员,并利用数据制定战略,夺得了40多年来第一个总冠军,是NBA里面的Google。
3)未来的制造业
机器智能会逐步渗透到制造和销售的各个环节,不仅工人数量将会逐渐减少,而且各个制造业都会被重新洗牌。仅仅靠降低工人工资的低水平竞争将不再具有制造业方面的优势。
举例:特斯拉的汽车制造是尽可能的使用机器人,同时取消存在了一个世纪的汽车代理商制度。
4)未来的医疗
将会通过人工智能降低医疗成本,解决医疗资源短缺的问题,掀起制药业的革命(不再是都是用一种药,而是不同的人会有不同的特效药),延长人类的寿命
举例:手术机器人达芬奇系统
IBM开发的沃特森(Watson)智能系统可以分析各种数据和医学影像,帮助疾病诊断和医疗信息管理,目前能达到中等医生水平,在缺少医生的非洲和印度,有比没有强。
Google独资的IT医疗公司Calico。
5)未来的律师业
机器智能够解决美国打官司中最费时文件分析(提升效率500倍),意味着未来将会有相当多的律师,尤其是初级水平的。
6)未来的记者和编辑
机器智能够阅读和写作,大大提高新闻行业的效率,同时也会让记者和编辑这类工作萎缩。
19、大数据和机器智能将把我们社会的管理水平提升到一个前所未有的高度,使得我们生活的环境更加安全,也会让我们的生活编的更加方便,社会资源的利用率大大提高。
举例:美国正在4个城市试运行的出行智能交通系统,能够利用实时的大数据更合理地在空间和时间上分配和利用交通资源(比如道路和停车场)。
20、可以利用区块链技术(比特币采用的技术),来记录每一件商品从制造直到被消费的完整行踪。
21、每一次重大的技术革命都需要时间来消化带来的负面影响,然而信息革命依然没消化完,智能革命就来了,只能靠时间来解决问题。因此智能革命对社会的冲击将是巨大的,会影响到国家、企业、个人的命运。当各个行业从业人数都因为机器智能而减少时,全世界几十亿劳动力怎么办?淘汰下来的劳动力会带来更大的社会问题。
22、靠征税解决不了以上问题,因为历史证明劫富济贫的做法从长远来看是阻碍经济发展的。当税率过高时,实际上等于鼓励懒惰,当全社会都不去创造财富而只考虑再分配的时候,经济就开始衰退了。事实上,富人的钱财除了少部分用于个人消费以及购买不动产以外,其他又投入了再生产,过高的税意味着投入再生产的钱减少了。
23、如何让自己在智能革命中受益而不是被抛弃,就是争当2%的人,而不是自豪地宣称自己是98%的人。要敢于投身到技术革命的大潮中,需要在这样的环境中学会生存。这将是一个让我们振奋的时代,也是一个给我们带来空前挑战的时代。