第一章 数据-人类建造文明的基石
1.数据≠数字,数据包含数字。并非所有数据都是有信息的,数据≠信息。数据包含语音文字图片设计图纸甚至人类行为本身。
2.对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性。
3.人类文明发展过程可以抽象为:获取数据→分析数据→建立模型→预测未知4.数据驱动方法:只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。因为是现有大量的数据,然后用很多简单的模型去契合数据(Fit Data);原理就是 切比雪夫大数定律。
第二章 大数据和机器智能
1.学术界将机器智能分为传统人工智能的方法和现代其他的方法。
传统的人工智能~首先了解人类如何产生智能,然后让计算机按照人的思路去做。即飞鸟派。现代其他方法:统计+数据2.大数据的特征:大量、多样性(多维度)、完备性【数据驱动方法可以使得智能问题转变为数据问题】
第三章 思维的革命
1.机械思维是依靠总结出的最基本的公理,然后通过因果逻辑构建整个科学的大厦。其中最具代表性的就是欧几里得的几何学(提出5条最简单且相互独立的公设)和 托勒密的地心说(假设简单元模型,基于此构造出复杂模型,用数据吻合)。
2.后人将牛顿的方法论概括为机械思维,核心思想可以概括为这样几句话:
* 世界变化规律是确定的
* 规律不仅仅是可以被认识的而且还可以用简单的公式或语言描述清楚
* 这些规律还可以被用来指导未知领域
3.工业革命是机械思维的结果机械思维直接导致了工业革命,更广泛的影响是作为一种指导人们的行为,其核心可以概括成确定性(或可预测性)和因果关系。机械思维的局限性更多的来源于它否认不确定性和不可知性。
4.熵(Entropy)---一种新的世界观熵:在一个封闭系统中,熵永远朝着不断增加的方向发展,也就是说从微观上讲,这个系统越来越无序,从宏观上看他趋于恒温。想弄借用熵的概念来描述信息系统的不确定性:信息的度量等于不确定性的多少,想要消除系统内部的不确定性,就要引入信息。
5.现代社会的不确定性致使我们无法简单的用机械定律可以概括,当我们无法确定因果关系时,数据中所包含的信息可以帮我们消除不确定性,某种程度上可以用相关关系取代因果关系,这就是大数据思维。
第四章 大数据与商业
1.IT产业链的形成。摩尔定律带来问题是让电子产品价格持续下降,消费者没有动力购买新产品,无法拉动产业增长。“安迪比尔定律”解决了这个问题,即软件性能的增加和改进会吃掉所有硬件性能的提升。
计算机工业整个生态链:以微软为代表的软件开发商吃掉硬件提升带来的全部好处,迫使用户更新机器,让惠普,戴尔,联想等公司受益。而这些pc整机厂商再向英特尔这样的半导体公司订购新的芯片,同时向希捷等外设厂商购买新的外设。整个过程中,各家的利润先后得到相应的提升,股票,也随着上涨。各个硬件半导体和外设公司再将利润投入研发,按照摩尔定律预定的速度,提升硬件性能,为微软下一步更新软件,吃掉硬件性能做准备。
第五章 大数据和智能革命的技术挑战
从数据的产生,存储,传输和处理四个角度来分析大数据形成的技术条件。
1.数据的来源
数据来源于电脑本身(电脑中的处理器,传感器和控制器一直在产生数据)、传感器(收集数据非常容易)、将过去已经存在的以非数字化形式储存的信息数字化。
2.信息的存储
存储容量增大
存储设备的读写速度增大(现在采用半导体的固态存储器)
3.传输速度
大量的数据集中不到一起,就不会产生大数据。现在的第四代LTE(通用移动通信技术的长期演进)和WIFI的覆盖使得,数据产生后,可以迅速上传到服务器上。
4.数据的处理
应用大数据的一个前提就是,能够将一个大的计算任务分到很多台,便宜的服务器上去做并行计算。云计算开始兴起。