2021-01-10 身边的统计悖论——辛普森悖论


 情景:季度要结束了,又该拿数据说话了。拿到数据后,业务急冲冲得跑过来,“怎么回事,我们A类班续费率从之前的60%上升到了70%,B类班也上升突破到了35%,都变好了,整体续费率应该是变好了呀,正要跟老大汇报呢。你却跟我说整体续费率下降了,你赶紧看看,是不是统计错啦?”。


    面对业务的质疑,是不是慌了呢?(坏了坏了,他说的好像有道理呀)

    其实,莫慌。相信自己,比例的问题嘛,整体并一定就是所有个体的简单平均哦,有时候,整体他就不是简单的等于所有个体的和或者平均呢。

    这时候,可以跟业务亮一下续费率背后的分母-样本数量是多少了。可以回答业务:“你们不能忽略每个季度的学员来源分布,要看看是哪类班的人数比重更大,是不是发生了变化!我们整体的续费率受到主要班型的学员影响比较大。之前的几个季度,你看,学员主要集中在A类班,续费率大概在60%。但是到了最后一个季度,学员主要来源于B类班,B类班的续费率一直低于A类班,虽然也上升了,但是上升后的续费率35%还是比A类班前几个季度的60%低,当学员来源发生了变化,我们就要谨慎计算了。你们可以用学员人数和续费人数汇总下,来验证下这个结果”。


      上述情景中遇到的问题,在工作中,当我们对业务指标进行各维度的下钻分析时,是比较常见的一种数据陷阱,需要警惕。在统计学上,这被称为“辛普森悖论”。

    辛普森悖论,由英国统计学家E.H.辛普森于1951年提出,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。(推荐一篇相关文章,https://www.sohu.com/a/235918522_114819)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 作为一名一线的数据分析师,工作中经常碰到的问题就是“为什么”,这个指标为什么在下降?那个指标为什么在变高?最终发现...
    xiao_9527阅读 8,532评论 0 24
  • 辛普森悖论为英国统计学家E.H.辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质...
    haidaozheng阅读 3,619评论 0 2
  • 欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】 先来做一个选择题。 统计两个班级的数学成绩,二班的整体及格率...
    张老师Klog阅读 9,502评论 2 7
  • 辛普森悖论 对于存在相关关系的两组因子A、B,可能存在一种现象,A、B为正相关,而将A分组后的A1和A2分别与B成...
    JonWang_js阅读 11,986评论 0 5
  • 对撞因子 对撞因子(Collider)【1】,在统计学和图模式中,是指同时被两个以上的变量影响的变量,而这些影响对...
    赵阳_c149阅读 8,260评论 0 4

友情链接更多精彩内容