四分位数的应用——基于收入实例的箱体图与离群值规则

内容导入:

大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍的是四分位数的原理与应用,四分位数的计算方式,并基于四分位数,画出箱体图,简要介绍如何通过箱体图来检测数据离群值。结合学习成绩与收入的案例分析,内容深入浅出,案例贴合实际,文章内容适合数据分析小白。下期给大家介绍集中趋势的应用。欢迎大家关注。

概念介绍:

四分位数是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(IQR)。

如下图所示为一个示意箱线图,从这个图上我们可以读出以下的信息:


这组数据显示出:

最小值(min)=0.5。

下四分位数(Q1)=7

中位数(Med)=8.5 (一段数据从小到大排序后,处于中间位置的数)

上四分位数(Q3)=9

最大值(max)=10

平均值=8

四分位间距(interquartile range)=Q3-Q1=2

计算方式:

第一步:确定四分位数的位置。

四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下四分位数、中位数和上四分位数分别为Q1、Q2、Q3,则:Q1、Q2、Q3的位置可由下述公式确定:


式中n表示资料的项数

第二步:根据第一步所确定的四分位数的位置,确定其相应的四分位数。

例如:某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤,则三个四分位数的位置分别为: (计算四分位数需要先对数据排序)

即变量数列中的第三个、第六个、第九个工人的某种产品产量分别为下四分位数、中位数和上四分位数。即:

Q1 = 13.8公斤、Q2 = 14.6公斤、Q3 = 15.2公斤

如果没有看懂,可以关注我们的微信公众号观看视频,视频里引用大家熟悉的工资数据,来告诉大家四分位数如何计算。

具体应用:

应用一:告诉各位家长们从名次角度判定成绩好坏

现在,学校的成绩都应该已经出来了,通常,人们判定成绩的好还使用的是成绩的绝对数,也就是大家所说的成绩高低。然后按照惯例,比如60以下不合格,60-70分合格,70-80中,80-90良,90以上为优秀。但是这种方式有缺点,如果试题很难,那么优秀的人会很少,相反,如果试题简单,大多数人考的很好,优秀就没有参考价值。

今天介绍一种以相对值划分成绩的方式,首先对成绩进行排序,将其用四分位数进行划分,那我们得到的数据就是前25%,后百分之25%等的分类,当然这个分类可以通过八分位数更加细化。这种方式,避免了试题难易程度对评价的影响,也切合目前招考的风格,因为高考各校是以报考名次划线的,因此成绩的相对数要高于成绩的绝对数。

不知大家懂了没有,我们在微信公众号上传了精美小视频,帮助大家进行理解。大家感兴趣的可以关注我们微信公众号观看视频。

应用二:使用四分位数画箱体图,并判定离群值

箱体图有区分正常值与离群值的作用,与大家经常听说的3sigma原则作用相似,区别在于,3sigma原则的应用,数据必须符合正态分布,但是箱体图离群值却适用于所有分布类型的数据离群值测算。

箱体图的组成由下图所示,上边缘,是上四分位数加上1.5倍的箱体;下边缘是下四分位数减去1.5倍的箱体;上箱体为上四分位数;下箱体为下四分位数;箱体长度为上四分位数减去下四分位数。数据在上边缘以上或者下边缘以下,就称为离群值。


文字不够直观,我们在微信公众号上传了视频,详细介绍如何画箱体图进行离群值的检测。为方便大家进行代码学习,我们同时为大家准备了离群值相关案例的python代码,作为小礼物送给大家。大家感兴趣的可以关注我们微信公众号观看视频、获取资料。

想获取更多内容,请关注海数据公众号。

本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354