【科普】辛普森悖论

欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


先来做一个选择题。

统计两个班级的数学成绩,二班的整体及格率高于一班,那么则有:

A:二班男生及格率高于一班男生及格率
B:二班女生及格率高于一班女生及格率
C:AB两种情况必定都成立
D: AB两种情况必定至少有一种情况成立
E.:AB两种可以都不成立

请先仔细思考几分钟,然后再继续往下阅读。
9
8
7
6
5
4
3
2
1
0

我们先看一组比较虚拟示例的数据。

\begin{align} &班级\quad &及格男生\quad &男生总数\quad &及格女生\quad &女生总数\\ &一班\quad &20\quad &20\quad &30\quad &100\\ &二班\quad &70\quad &100\quad &2\quad &20 \end{align}

一班的及格率是:
\frac{20+30}{30+100}\approx40\%

二班的及格率是:
\frac{70+2}{100+20}=60\%

二班的的整体及格率明显高于一班。

再分开男女单独比。

  • 一班男生及格率100%,高于二班的70%。
  • 一班女生及格率30%,高于二班女生的10%。

一班的男生及格率和女生及格率都比二班高,但为什么一班整体及格率却比二班低?

我们把数据画到坐标图上,如下所示。

横向表示总人数,竖向表示及格人数。图中黑色表示一班,红色表示二班,实心点表示(x,y)=(男生及格人数,男生总人数)这样的坐标点,空心表示女生的坐标点。很明显,斜线的倾斜度就是及格率,越是竖直斜率越高及格率也就越高,越是水平斜率越低及格率也就越低。

从图中可以看到,一班男生及格率(斜率)高于二班男生,一班女生及格率(斜率)也高于二班女生。

但班级的整体及格率是什么?(x,y)=(男生及格,男生总数)+(女生及格,女生总数),如下图中实线所示,班级整体及格率就是实线的斜率,即(男生及格+女生及格)/(男生总数+女生总数)

图中的两条女生虚线已经被平移到男生虚线之后,和班级整体的实线形成了三角形关系。

两条斜率大的斜线,连接成三角形的第三条边(实线)斜率未必就大

从这个例子我们知道,从一组数据统计得到的概率并不能决定数据内部某个类别的概率情况。因为整体概率往往是很多子因素概率综合作用的结果。就像下图,实线的最后斜率和每段虚线的斜率并不一致。

辛普森悖论(Simpson's Paradox)就是指两组数据中分别统计得到的信息,可能与合并之后统计的信息相反。这个理论由英国统计学家E.H.辛普森(E.H.Simpson)提出。

这个理论提醒我们看待问题要更加深入,不要轻易被整体数据所迷惑。比如高考某院校的全国整体录取率很高,但是对于某个省或某个专业来说可能就会很低。比如某个球员的射门命中率很高,但有可能是他罚点球比较多造成的。

这时候你可以回头看一下顶部那张给猫和人试用药品的图片了。

PS:

分数是个很怪异的数字,分数的表面只是一个比例,但每个分数的背后都隐藏着一个分母总数。我们不能从及格率60%这个数字上看出背后有多少学生,更看不出其中有多少男女。

很小的时候数学老师就告诉我们非同名数不能相加。但是忘了告诉我们非同分母的分数也不能任意相加。比如说有人欠你1/3颗芝麻和2/3个西瓜,然后他只给你一粒芝麻,这是不行的。

分数所能表达的信息是残缺的。就像把整本《三国演义》概括成一句话“天下大势,分久必合合久必分”,你从这句话中体会不到谁是曹操谁是刘备关羽张飞诸葛亮。


欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


每个人的智能新时代

如果您发现文章错误,请不吝留言指正;
如果您觉得有用,请点喜欢;
如果您觉得很有用,欢迎转载~


END·

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349