数据驱动法是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。
鉴于完美模型未必存在,即使存在,找到它也非常不容易而且浪费时间,因此就有人考虑是否能通过用很多简单不完美的模型凑在一起,起到完美模型的效果呢?比如说,是否可以通过很多很多圆互相嵌套在一起,建立一个地心说模型,和牛顿推演出的日心说模型一样准确呢? 如今这个答案是肯定的,从理论上讲,只要找到足够多的具有代表性的样本(数据),就可以运用数学找到一个横型或者一组模型的组合,使得它和真实情况非常接近。
这种思路在现实生活中已经被用到。比如美国和苏联在设计飞机、航天器和其他武器上的理念和方法就不同。苏联拥有大量数学功底非常深厚的设计人员,但是缺乏高性能的计算机和大量的数据,因此其科学家喜欢寻找比较准确但是复杂的数学模型;而美国的设计人员相比之下数学功底平平,但是美国的计算机拥有强大的计算能力和更多的数据,因此其科学家喜欢用很多简单的模型来替代一个复杂的模型。这两个国家做出的东西可谓各有千秋,但从结果来看,似乎美国的更胜一筹。
在工程上,采用多而简单的模型常常比一个精确的模型成本更低,也被使用得更普遍。比如在光学仪器的设计上,一个完美的镜头里面的透镜其实不应该是球面镜,因为那样边缘的图像会变形,只有采用抛物面或者其他复杂曲面,才能使得整个画面都清晰。但是这些非球面透镜的加工需要技艺高超的技工。德国因为拥有最好的技工,因此敢于在镜头设计上采用非球面透镜,这样整个光学仪器就非常小巧。而日本缺乏这种水平的技工,但是善于用机器加工,因此日本人在设计光学仪器时,就用好几个球面透镜来取代一个非球面透镜,这样的光学仪器虽然显得笨重,但是容易大规模生产,而且成本非常低。“二战”后,日本超过德国成为全球光学仪器(包括相机)第一大制造国。
回到数学模型上,其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据(Fit Data)。虽然这种数据驱动方法在数据量不足时找到的一组模型可能和真实的模型存在一定的偏差,但是在误差允许的范围内,单从结果上看和精确的模型是等效的,这在数学上是有根据的。从原理上讲,这类似于前面提到的切比雪夫大数定律。