辛普森悖论

辛普森悖论

对于存在相关关系的两组因子A、B,可能存在一种现象,A、B为正相关,而将A分组后的A1和A2分别与B成反相关,这种现象即为辛普森悖论。

简言之,就是分组和数据整体讨论相关性时不同。

一个构想的例子:

男女两人对比两家家餐厅推荐率时,发生分歧。一人看的是两家所有就餐人员的推荐率,选择其中一家,一个人看中的是和根据筛选不同性别的推荐率来看,选择另外一家(不同性别下,均推荐率高)。

数据构成:

性别        M餐厅                    N餐厅

男            50/150=30%         180/360=50%

女            200/250=80%        36/40=90%

总            250/400=62.5%     216/400=54%

①总体来看  推荐M餐厅;②分性别来看,推荐N餐厅

那为什么分性别来看推荐率高的反而总体看推荐率低:

N餐厅的女性推荐率高达90%,但它的样本只有40个,只占总评论人数的10%;而M餐厅的女性推荐率虽然只有80%,但女性评论者有250个,这显然会大幅拉高餐厅的总体好评率。

其实也就是看分组后的主要群体。在N餐厅的男性360,M餐厅女性250占比较大。那么这些主要群体的评论高低将影响评论的方向。所以我们可以看到总体上,M餐厅更高,这个和M餐厅的主要分组群体(女性)推荐率80%高于N餐厅主要分组群体(男性)推荐率50%一致。

简单来说就是分组后其中的主要群组的影响权重更大。反过来就是样本相对较小的群组虽然可能在数据指标上表现更高,但是此时对于总体指标表现影响较小,从而形成了辛普森悖论。

那么是不是说,一味考虑大群组的指标表现就可以了呢?在上面的假想例子中是可以说的通的,我们吃饭选择餐厅,考虑的是整体大众化的口味,来让做出选择的两人都能满意最后的选择,那么也就是可以选择不考虑性别因素。而是考虑整体,也可以说是考虑整体中大分组群体的“众数”表现即可。但是,现实生活中还有就是有些情景下我们需要具体对待。

下面看一个典型的例子:

两种治疗肾结石的方案取舍,两种方案的治愈率如下:

结石大小            方案x                     方案y

小结石                81/87=93%           234/270=87%

大结石                192/263=73%       55/80=69%

总体                    273/350=78%       289/350=83%

一样的,分开看,选x;合并看,选y

方案x中的大结石群体和方案y中小结石群体为主要群体,所以它们的比率高低基本上影响了整体方案的治愈率高低。

这里简单插入一下实际操作的场景:大结石肯定是比小结石严重,这个时候医生处理的时候x方案更具有侵入性(医学上带有一定创伤性的治疗措施),结石小就会更倾向选择保守方案y。大概意思可以理解为,重病猛药,轻病带着治。

这种场景下,就是说,治愈率和方案xy有关,又和结石大小有关;

而选择方案xy本身在实际操作中是受到了结石大小影响的。(这里感觉和辛普森悖论提出的人种肤色死刑率的案例有相似性,感兴趣的可以去了解下)

那么其实看这个方案选择问题的,其实综合来看总体情况是不切合实际的,是需要分开大小结石来看的,那么分开看的的角度下,最终答案就是选x。

这么看来,聚合数据看很有用,但是有些情况下,分组看,也许更贴近真相。

另外还有运动和病情恶化的例子,50岁分界线两组数据,运动多,病情恶化少;合并一起,运动多,恶化多;实际上是合在一起,年龄越大,恶化越多,运动成了非唯一变量。

图1 分年龄段看相关性(运动量*恶化可能性)  
图2不分年龄看相关性(运动量*恶化可能性)  
图3分年龄段看相关性(年龄*恶化可能性)  

再看最后一个例子:

杰拉尔德·福特担任美国总统期间的税收、税率变化,各收入群体税率下降(tax/income),社会整体税率却提高了。因为总值占比较低的非高收入群体的税率降低的多,总值占比较高的高收入群体降低的少,所以税率变化主要受高收入群体的影响,整体税收水平的涨幅高于收入总值,使得税率不降反增。

图4 不同时间下不同收入群体税率对比

但是从理解数据需求角度来说,个人仍更关注个人自己的税率,是下降的,工资水平是增长的,这对于个人来说才是比较重要的信息。

总结下来:

①一般都是遭遇比率类的问题;

②辛普森悖论和样本大小存在一定关系;

③辛普森悖论其实受“众数”影响较大,众数的比率指标往往反映了整体的比率指标情况,那么在分析决策时候,我们要选择的就是,是否要信赖分组中“众数群体”的表现,作为决策指引;

④辛普森悖论跟混淆变量有关,需要控制变量,找到实际的相关因素,拆开表面数据;

⑤方法上可以多用散点图来观察问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349