必须要说的话
不瞒各位,我是吴军先生的粉丝。从《数学之美》、《浪潮之巅》到《文明之光》,我都是忠实的读者。2016年,吴军先生发表了新作《智能时代》,用以描绘给读者一个现在发生的和将要发生的未来图景。读完之后,我认为这是一本集结了吴军先生几部前作思想的融合。因此,我斗胆在这里尝试解读一下《智能时代》中一个最基本的着眼点——数据。
从数据到知识
从人类肉眼所见的现象开始推演起,最终我们找到知识,大致是一个这样的阶段:
现象 > 数据 > 信息 > 知识
现象很好理解,你看到什么,就是什么。当人类开始采用语言文字进行记事的时候,数字被我们落实在了结绳、龟甲、竹板、石碑等上面,这就是最初的数据。到了今天,数据的范畴要比单纯的数字大得多。而现代互联网所谓的数据,可以说覆盖到了生活的方方面面。
比如,我们在社交网站上的聊天信息,上传的图片,点了一个赞,都是数据范畴扩大化的典型案例。除此之外,我们还通过科技手段保存下来了语音文字等,称作“语料库”。
这些大型数据中,可能承载着我们人类可以利用的信息。尽管,并非所有信息都具备人类理解的涵义。通过这些信息,我们可以利用一些分析手段得到具有意义的东西,例如数学公式、自然规律和某些系统性的特征。
这便是人类的知识。
文明的基石
得到数据和使用数据的能力,是衡量文明发展水平的标准之一。
古埃及人发展天文学,通过观察天狼星和太阳的位置来判断农耕时机,以及尼罗河的洪水。美索不达米亚的苏美尔人,通过观察月亮,发展出了太阴历的历法制度。古希腊文明随后继承了苏美尔人的成果,发展成为当时世界的数学和天文中心,最终由托勒密利用前人的数据,建立了天体运动模型。
这就是人类文明发展的过程,和数据紧紧地联系在了一起。我们先获取数据,然后分析数据,建立通用的数学模型,最终以此来预测未来未知的现象。这也是我们做科学研究的大致思维。
相关性:数据的钥匙
看似毫无关联的数据,也可能存在意想不到的相关性,如同“蝴蝶效应”。
20世纪70年代,日本公司能中标大庆油田的设备招标,是通过分析铁人王进喜的宣传照片,从而推算出了油田的大致位置,储油量等信息,对招标工作进行了充分的准备。
Google Trends趋势产品:搜索的关键词随着时间和地点变化的趋势。通过这个产品,美国成功预测了H1N1的传播趋势,成为利用大数据解决医疗问题的经典案例。
统计学
从现象中获取有效的数据,是统计学考虑的范畴,其要点是:量和质。
在统计样本数量不充分的情况下,统计数据分析出来的结论毫无意义。越想得到准确的统计结果,需要统计的数据量就越大。除此之外,统计数据还要求具备代表性。
如果不具备代表性,以1936年美国总统大选为例,将无法预测出结果。问卷调查的大多数人是高级知识分子,而忽略了广大平民,于是预测错误。要想找到代表性和统计量的关系,不得不依靠大数据。
可惜的是,盖洛普公司虽然成功预测了1936年的大选,却在1948年失败了,这就是因为没有大数据支持。而蒋介石当时也相信了他们的预测,却带来了政治危机。
数据驱动方法
以大数据来加速人类寻找知识的方法,就是数据驱动方法。
这听起来似乎和我们此前的科学研究方法有些背离。
在建立数学模型的时候,我们通常将精力放在选择和设计合适的模型上,然后再选择配套参数。但是,完美的模型未必能找到,就算存在,势必要花上一番气力。于是,我们开始考虑用很多简单而不完美的模型凑在一起,推倒出完美模型。
这个思路早就在美国和苏联的航天领域用到了。苏联缺乏数据和机器,因此采用了大量数学家进行计算从而获得模型;而美国更多是利用计算机和大量数据来建立模型。现实来看,美国的方法更胜一筹。
另一个例子,日本和德国的光学仪器之争。德国拥有超高的工艺,因此可以制造非球面透镜,尽管光学仪器小巧,却造价高昂。日本采用多个球面透镜,来取代非球面透镜,光学仪器很大很笨重,但是价格低廉。由此,日本超过德国在二战之后成为光学仪器制造大国。
只要数据量足够,就可以同若干个简单模型来取代一个复杂模型,这就是数据驱动方法,用很多简单模型来拟合数据。当然,一定要在误差允许的范围之内。
大数据的时代
计算机的发展和互联网的兴起,让我们可以利用机器进行大量的计算,从而推动了数据来推倒出合适的算法。这不仅仅是经验论,在数学上也有严格的保证。
尽管一开始可能存在数据不足等情况,显得有些粗糙,但是随着时间的推移,数据量不断增大,计算能力不断提高,获得算法的速度越来越快。就像AlphaGo一样,在经过几十万盘数据分析和比较之后,它只会越来越聪明。