如果“大统一理论”真的成立,那么数据科学到底还有什么特别之处呢?假设“大统一理论”指的是对世界上万事万物运行规律的普适解释。这个问题引申出了一系列问题。
如果真有一个普适的理论,那么我们还需要研究数据科学这样的具体学科吗?
“大统一理论”有没有存在的可能性?这个理论如果存在,那么它是否只存在于某一领域,比如说物理学?物理学是关于世界如何运转的学科,它强调精确性,比如说可以精确预见100年才出现一次的那颗彗星何时重返。
如果这个理论不可能存在,就说明物理学和数据科学是有本质区别的,那这种区别是什么?
两者的区别就只有准确度这一项吗?或者更广义地说,我们所能想到的东西,到底有多少能分别用这两种理论来解释?是不是因为我们在预测人类行为时,研究对象的行为会受到预测本身的影响,从而形成了一种反馈回路?
若将科学看作一个统一的整体,可能对解答上述疑问会有所帮助。在这个统一体中,精确的物理学处于最右端,而越往左走就越混乱——研究者要面对更多的不确定性和随机性(也意味着更高的薪水)。那么诸如经济学、营销学和金融学这些学科又在科学体系中处于什么位置呢?
如果数据科学像物理学一样,已经有一套业成熟的建模方式,那么要知道人们在何时会点击什么样的广告,就变得和预测火星探测器何时着陆一样容易。鉴于此,人们目前形成了普遍共识:无论是现在还是未来,我们都无法彻底了解这个世界。
数据科学值得称作“科学”吗?
不要低估了创意的力量——很多时候人们有了设想,却未能找到实现手段。而作为数据科学家,你应该有能力把设想转化为一个数学模型,这个模型在操作上会具备一些约束条件。你需要明确地知道问题所在,快速测度问题的方方面面,并且对它进行优化。而至关重要的一点是,在建模完成之后你要确保这个模型能够解决最初提出的问题。
数据科学中也是讲究艺术的,这主要体现在将人类实际问题和数学语言互为翻译转化的过程中。
经验告诉我们,这种转化问题的方式是没有标准答案的——可选的模型总是不止一种,相应的模型评价指标也有很多,甚至连最优化的方法都有很多选择。而数据科学之所以称作科学——给定原始数据、限制条件和问题描述——其恰恰在于这样的问题总是没有绝对普适的答案,我们需要经历一个迷宫一样的过程才能找到一个可能的最优解。每一种方案的选择都可以被视作一种假设,你需要具备利用精确的测试和实验方法来检验(验真或者证伪)这些假设的能力。
这样一种假设和检验的循环往复的过程给“数据科学”深深地烙上了“科学”的印记。具体来说,其“科学”的一面主要体现在下面三点。
如果你找到了一个最优的模型,坚持使用它!
如果你有一个新主意,把它与你之前的最优模型进行比较。通常,你需要思考一下如何设计好一对比较实验。
在能够100%确定之前,不停地实验(但也要尽量避免过拟合)。