2021-01-10 身边的统计悖论——辛普森悖论

情景：季度要结束了，又该拿数据说话了。拿到数据后，业务急冲冲得跑过来，“怎么回事，我们A类班续费率从之前的60%上升到了70%，B类班也上升突破到了35%，都变好了，整体续费率应该是变好了呀，正要跟老大汇报呢。你却跟我说整体续费率下降了，你赶紧看看，是不是统计错啦？”。

面对业务的质疑，是不是慌了呢？（坏了坏了，他说的好像有道理呀）

其实，莫慌。相信自己，比例的问题嘛，整体并一定就是所有个体的简单平均哦，有时候，整体他就不是简单的等于所有个体的和或者平均呢。

这时候，可以跟业务亮一下续费率背后的分母-样本数量是多少了。可以回答业务：“你们不能忽略每个季度的学员来源分布，要看看是哪类班的人数比重更大，是不是发生了变化！我们整体的续费率受到主要班型的学员影响比较大。之前的几个季度，你看，学员主要集中在A类班，续费率大概在60%。但是到了最后一个季度，学员主要来源于B类班，B类班的续费率一直低于A类班，虽然也上升了，但是上升后的续费率35%还是比A类班前几个季度的60%低，当学员来源发生了变化，我们就要谨慎计算了。你们可以用学员人数和续费人数汇总下，来验证下这个结果”。

上述情景中遇到的问题，在工作中，当我们对业务指标进行各维度的下钻分析时，是比较常见的一种数据陷阱，需要警惕。在统计学上，这被称为“辛普森悖论”。

辛普森悖论，由英国统计学家E.H.辛普森于1951年提出，即在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。（推荐一篇相关文章，https://www.sohu.com/a/235918522_114819）

最后编辑于：2021.01.10 22:38:02

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2021-01-10 身边的统计悖论——辛普森悖论

2021-01-10 身边的统计悖论——辛普森悖论

相关阅读更多精彩内容

友情链接更多精彩内容