进行线上ab实验时,为了确认结果可信,用户常常会复验前一阶段的实验。此时经常遇到复验与原实验结果不完全统一,如何综合评估实验效果?荟萃分析可以解决此类问题。
本文仅简介固定效果假设下关于P值合并的部分。
什么是荟萃分析
通过统计学方法将多次实验结果合并进行分析。
为什么需要荟萃分析
当存在多个针对同一问题的科学研究时,每个单独的研究报告的测量结果都可能存在一定程度的误差。通过合理的方式将多次实验结果合并,理论上会有更接近真实的评估。
可以解决什么样的问题
- 单次实验power不足
由于种种限制,可能没办法单次实验中提供充足的样本。对其重复实验并进行荟萃可以得到更大的power。 - 降低假阳性
常常第一次实验显著,而复验实验并不显著,那么干预是否有效果?荟萃分析提供了科学的方法进行分析,降低了可能的主观选择性偏差。
常用方法
-
Fisher's method
如果两次实验p值分别为p1、p2。进行在零假设时,它们独立,并服从0~1的均匀分布,则两次实验合并的p值为:
Fisher将其扩展到更一般场景,对k次实验结果进行合并后服从自由度为2k的卡方分布:
-
Stouffer’s method(z值合并)
此处直接介绍加权的方法。
先将值逆计算为,则。多个加权相加后,依然服从正态分布,则:
为什么会有权重呢?假如每次实验重视程度不同,那么它们结果按重要性来加权是很自然的。
如何选择权重?如果实验干预、受众相同,建议使用样本量的平方根做权重。
单样本两次实验的例子:
检验是否为0,做了两次实验分别采集到,样本量为,样本方差同为,此时如果,则可推出
即两次实验结果,与将原数据汇总计算结果相同。
荟萃方法比较
Whitlock, 2005的研究表明,上述两种荟萃方法,具有相同的假阳性控制水平,但是加权Z值合并法有更高的功效
总结
这种方法的主要好处是信息的汇总,比任何单独研究得出的指标所能提供的统计能力和点估计值都更高。
但是对几个小型研究的荟萃分析并不总是能预测单个大型研究的结果。该方法的一个缺点是偏倚的来源不受该方法的控制:良好的荟萃分析不能纠正原始研究中不良的设计或偏倚。这意味着在荟萃分析中只应包括方法论上合理的研究,这种实践称为“最佳证据综合”。