推荐序(李善友)
“用不确定的眼光看待世界,再用信息来消除这种不确定性”,是大数据解决智能问题的本质。
世界的不确定性来自两个方面,一是影响世界的变量太多以至于无法用数学模型来描述;二是来自客观世界本身:不确定性是我们所在宇宙的特性。
机器智能革命的发生来自大数据量的积累达到质变的奇点。
第一章 数据——人类建造文明的基石
信息是关于世界、人和事的描述,它比数据来的抽象。信息可以是人类创造的,比如两个人的通话记录,也可以是天然存在的,比如地球的面积和质量。
数据最大的作用在于承载信息,但并非所有的数据都承载了有意义的信息。数据本身是人造物,因此他可以被随意制造,甚至可以被伪造。
对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。比如测量星球的相对位置和对应的时间,就得到了数据;通过这些数据得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。
相关性是使用数据的钥匙。很多时候,我们无法直接获取信息,但是我们可以将相关联的信息量化,然后通过数学模型,间接地得到所要的信息。(Google利用各地用户搜索和流感有关的关键词的趋势变化,预测疫情的传播情况)
数据驱动方法:只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。虽然这种数据驱动方法在数据量不足时找到的一组模型可能和真实的模型存在一定的偏差,但是在误差允许的范围内,单从结果上看和精确的模型是等效的。它是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。
在今天的IT领域,越来越多的问题可以采用数据驱动方法来解决。具体讲,就是当我们对一个问题暂时不能用简单而准确的方法解决时,我们可以根据以往的历史数据,构造很多近似的模型来逼真真实情况,这实际上是用计算量和数据量来换取研究时间。它的最大优势在于,可以在最大程度上得益于计算机技术的进步。
第二章 大数据和机器智能
图灵测试:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器和人有了同等的智能。
人工智能这个名词严格地讲在今天有两个定义,第一个是泛指机器智能,也就是任何可以让计算机通过图灵测试的方法,包括数据驱动方法;第二个是狭义上的概念,即20世纪五六十年代特定的研究机器智能的方法(首先了解人类如何产生智能,然后让计算机按照人的思路去做)。
全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个纬度的数据从点和线渐渐连成了网,或者说,数据之间的关键性增强,在这样的背景下,就出现了大数据。
大数据的特征:体量大、多维度、全面性。
big data是一种抽象意义上相对于小的大,它传递了一种信息——大数据是一种思维方式的转变。
第三章 思维的革命
托勒密方法论的核心思想:首先,需要一个简单的元模型,这个模型可能是假设出来的,然后用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。(动态规划管理学的理论方法和托勒密方法论一致)缺陷:一是整体模型很复杂;二是确定性假设,模型一旦产生,就是确定的和不会改变的。
笛卡尔的科学方法论:大胆假设,小心求证。
牛顿的机械思维:一是世界变化的规律是确定的;二是因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚;三是这些规律应该是放之四海而皆准的,可以应用到各种未知的领域指导实践。(工业革命就是机械思维的结果)
世界的不确定性来自两个方面:一是当我们对这个世界的方方面面了解的越来越细致后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理他们,人为的把他们归位不确定的一类。二是不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。
信息量与不确定性有关:假如我们要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,那么就不需要太多的信息就能把他搞清楚。所以从这个角度看,可以认为,信息量的度量就等于不确定性的多少,这样香农就把熵和信息联系起来了。
用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能把很多智能性的问题转化成信息处理问题,具体说,就是利用信息消除不确定性的问题。
香农第一定律,也叫香农信息编码定律,它大致的含义是这样的:假定有一个信息源,里面有N种信息,现在我们需要对这N种信息一一进行编码,比如我们用0011表示第一种信息,10000111表示第二种……这些编码当然不能重复,否则我们就无法根据编码来断定是哪一种信息了。
香农第二定律:信息的传播速率不能超过信道的容量。
现代通信手段的本质,就是以相对低廉的成本获得人脉,而媒体行业的不断进步,本质上是不断地在为企业拓宽对外连接的宽带,使得它们做生意越来越方便。
最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。
大数据的本质:一是数据量的问题;二是多维度很重要,有两个视角:互信息、交叉验证;三是信息的完备性很重要。(黑天鹅效应)
大数据时代的思维方法——从大量数据中直接找到答案,即使不知道原因。这一方面给了我们一个找捷径的方法,同时我们不会因为缺乏勇气而被难倒;另一方面我们是否能接受这种不知道原因的答案。
第四章 大数据与商业
大数据在商业活动中从细节到整体再从整体到细节的双向流动,使得我们不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节。(Prada的RFID芯片、金风公司)
一项技术带动整个社会变革的事情,通常遵循一个模式
新技术+原有产业=新产业
(新技术:蒸汽机、电、摩尔定律、大数据、机器智能)
在大数据时代,IT软件和服务业依然会是IT领域最好的行业,而且这个趋势更加明显。提供服务虽然不像销售产品一次能挣到比较多的钱,但是细水长流的技术服务最终会给这些服务的提供者带来更长久的生意、更多的利润。未来产品的服务水平不完全取决于厂商对它的重视程度(如服务态度)和相关技术,而更多依靠智能化。未来,商家将在数据层面和智能化方面展开竞争。
在今天的大数据和机器智能时代,虽然每一个公司都得益于数据的使用以及机器智能带来的好处,但这并不意味着每家公司都要聘请数据科学家或者机器智能方面的专家。更切合实际的是,他们付费使用第三方的服务。在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
第五章 大数据和智能革命的技术挑战
数据形成的四个技术条件:1.数据的三个来源:电脑本身,传感器,过去已经存在、非数字化形式存储的信息数字化。2.信息的存储:一是存储容量增加,同时价格下降;二是存储设备的读写速度提高。3.传输速度更快。4.信息的处理技术成熟:并行计算。
大数据时代,在收集数据时常常没有预先设定的目标,而是先把所有能够收集的数据收集起来,经过分析后,能够得到什么结论就是什么结论。这样就避免了采样之苦,因为大数据常常以全集作为样本集。
节约存储设备的技术体现在两方面,一是存储同样的信息占用的空间小;二是涉及数据的安全,具体是指数据不丢失、不损坏。
大数据并行计算的难题:一是任何一个问题总有一部分计算是无法并行的,这类计算占比越大,并行处理的效率越低;另一个影响并行计算效率的因素在于无法保证每个小任务的计算量是相同的。
解决大数据实时处理的问题,就要从根本上改变系统的设计和算法。
机器智能的关键——数据挖掘。一是对数据过滤和整理;二是进行机器学习,机器学习是一个不断迭代、不断进步的过程,即“期望值最大化”——只要事先设定一个学习的目标,这些算法就会不断地优化模型,让它越来越接近现实情况。
数据安全技术面临问题:一是保证用户数据不损坏、不丢失;二是保证数据不会被偷走或者盗用。解决的方法:一是从文件设计和操作系统设计上加以改进;二是利用大数据本身的特点,来保护大数据的信息安全(如固定数据操作流程)。
大数据时代保护隐私的技术:一是从收集信息的一开始就对数据进行一些预处理,预处理后的数据保留了原来的特性,使得数据专家能够处理数据,但却读不懂数据的内容;二是双向监视,让侵犯隐私的人必须以自己的隐私来做交换。
第六章 未来智能化产业
未来的农业:在引入机器智能后,农业将以崭新的形态出现(以色列利用高科技改善农业灌溉)。
未来的体育:利用大数据指导训练,分析和总结优秀运动员的动作与技术,纠正其他运动员的动作(NBA金州勇士队利用大数据建队)。
未来的制造业:机器智能渗透到产品制造和销售的各个环节时,整个制造业将重新洗牌,未来的竞争要靠从设计到销售全过程的智能化水平。
未来的医疗:降低医疗成本、解决医疗资源短缺、制造业革命、预防衰老及延长寿命
未来的律师业:自然语言处理软件处理法律文件,提高律师工作效率,降低诉讼成本。
未来的记者和编辑:计算机能提高新闻行业的效率,同时会让记者和编辑的工作种类萎缩。
第七章 智能革命和未来社会
智能社会体现在方方面面,但概括起来,就是让我们的生活变得更加方便,同时社会资源的利用率极大提高。要做到这一点,重要的是让整个社会精细化。
精细化社会:利用区块链追踪每一次交易(比特币、追踪商品从生产到销售、流通的每一个环节),从标准化到个性化的服务(用药)
大数据、移动互联网(万物联网技术)和机器智能三者叠加到一起后,我们不再有隐私可言;同时大数据会带来一个威胁,它在无形中会制造出一个老大哥。