统计学和因果论:相关性和因果关系
相关性:两个变量的一致性程度。存在3种状态:正相关、负相关、不相关。
相关性代表“有概率存在因果关系”,但是因果的方向未定。
因果关系:一个变量由于另一个变量的变化而产生变化。
高相关性的两个变量具有较大概率存在因果关系,但是因果的方向是不一定的,也有可能不存在因果关系,或不是直接的因果关系。这意味着当我们从历史数据中发现了某种相关,需要进一步进行验证时,只有引入操作变量,才能确定真实的机制是什么样的。
数据监控的建立和数据的输出,都需要和业务的实际问题紧密结合,只有专业知识+数据辅助,才能更快速地得出有效的结论。
相关性代替因果关系和因果倒置是我们在数据分析(更准确地说是“数据推理”)中经常存在的逻辑谬误。
统计学方法除了描述统计,另一个分支可以被称作“推断统计”,而推断统计的核心方法就是“假设检验”。
我们前面提到的AB测试、实验设计等内容,都是依托假设检验过程存在的。具体过程是:为了验证一件事情的真假,我们就先假设它为真(即认为它大概率发生),并约定它不发生的概率作为显著性水平,然后根据样本数据的验证结果,做出决策,即拒绝原假设或接受原假设。
这一过程基于一个重要的前提:在单次实验中,小概率事件不可能发生。如果发生了,我们就拒绝原假设——这也是假设检验过程的核心思想。这种方法和反证法非常类似——先假设事情是这样的,顺着当前情况推导出矛盾,就刚好说明假设不成立。