《深入浅出统计学》第三章 分散性与变异性的量度 笔记

第三章 分散性与变异性的量度:强大的“距”


平均数让人知道数据中心的情况,却无法知道数据的变动情况


分散性

一、全距(极差)

1、用于量度数据集分散程度的一种方法。全距指出数据的扩展范围,有点儿像测量数据的宽度。

2、算法为:上界—下界,其中上界为最大值,下界为最小值。

3、全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态

4、全距是描述数据集分散程度的简便方法,但并不是最好方法


二、迷你距

1、如果全距中包含异常值,可以找出全距的一个部分——不包含异常值部分,构建迷你距

2、如果要对几个数据集进行比较,请确保这几个数据集统统使用相同的迷你距

3、构建迷你距的方法,仅使用数据中心周边的数值。

4、四分位数和四分位距

    1)四分位距提供了一种用于量度数据分散程度的标准的,可重复使用的方法。四分位距的优点是:与全距相比,较少受到异常值的影响,因为仅用了处于中心部位的50%数据

    2)先把数据按升序排列,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一原有数据。

    3)将整批数据一分为四作用的几个数值就是所谓的四分位数。

    4)最小四分位数成为下四分位数或第一四分位数,最大的四分位数成为上四份位数或第三四分位数,中间的四分位数就是中位数,因为它将数据一分为二。

    5)每两个四分位数之间的距被成为四分位距。四分位距=上四分位数-下四分位数。

5、求下四分位数的位置

    1)首先计算n/4

    2)如果结果为整数,则下四分位数位于n/4这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四分位数

    3)如果n/4不是整数,则向上取证,所得结果即为下四分位数位置

6、求上四分位数

    1)首先计算3n/4

    2)如果结果为整数,则上四分位数位于3n/4这个位置和下个位置的中间,将这两个位置上的数加起来,然后除以2

    3)如果3n/4不是整数,则向上取证,所得到的新数字即为上四分位数的位置

7、百分位数和百分位距

    1)如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数,第一个百分位数到最后一个百分位数之间的数据被称为百分位距。

    2)百分位距不太常用,但百分位数本身却对于划分名次、排行很有用。可以通过百分位数确定某个数值相对于其他数值的高低。

    3)第k百分位数即位于数据范围k%处的数值,记为Pk

8、求百分位数

    1)首先将所有数值按升序排序

    2)为了求出N个数字的第K百分位数的位置,先计算k(n/100)

    3)如果结果为整数,则百分位数处于第k(n/100)位和下一位数之间,取这两个位置上的数字平均值,得出百分位数

    4)如果k(n/100)不是整数,则将其向上取整,结果即百分位数的位置


箱形图(箱线图)

箱形图能在同一张图上体现多个距和四分位数,是在这方面十分有用的一种方法。

箱显示出四分位数和四分位距的位置,线则显示出上、下界

箱形图能在同一张图中,对不同数据集进行比较的极好方法。如图

变异性

全距与四分位距仅仅告诉你最大值和最小值之间的差值,却无法告诉你这些最高分或最低分的频率。

我们希望量度每批得分的分散性,不仅如此,还希望找到某种方法,利用所得到分散性看出球员的稳定程度。也可以说我们希望能够量度球员得分的变异性。变异性比分散性更具体。方法是,观察每个数值与均值的距离。如果我们能够算出各个数值与均值的某种平均距离,就有办法量度变异性和分散性。

变异性:平均值都一样,但是其散布/离散度明显不同,这就是数据变异性的体现。一般用方差、标准差、变异系数来描述。

一、方差

方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

或者


二、标准差

标准差是量度分散性的一种方法,它描述了典型值与均值距的离。

均值体现了平均数,而标准差体现了数值的变异度


三、变异系数

标准差除以均值

问题:假设有两位能力不同的篮球队员:第一位投篮命中率为70%,其标准差为20%;第二位投篮命中率为40%,标准差为10%。在某一次训练中,球员1投篮命中率为40%,球员2投篮命中率为55%,从球员本人的历史记录来看,哪一位球员的表现更好。

标准分(Z分)

标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同。

通过处理,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较


标准分的作用是将几个数据集转换成一个理论上的新分布,这个分布的均值为0,标准差为1,这是一种可用于进行比较的通用分布。

标准分=距离均值的标准差个数,统计师有时候会用距离均值若干个标准差表示某个特定数值的相对位置

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容

  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,055评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,885评论 0 2
  • 今天上午陪老妈看病,下午健身房跑步,晚上想想今天还没有断舍离,马上做,衣架和旁边的的布衣架,一看乱乱,又想想自己是...
    影子3623253阅读 2,914评论 1 8