描述性统计理论学习

0x00 前言


最近由好友推荐加入了一个名为数据异次元的微信群,群主是鹅厂做数据仓库等数据方面的大佬木东居士,在看了大部分他的公众号(简书、微信公众号同名:木东居士)之后深有感触,越来越觉得自己在数据这块懂的是真的浅薄,人与人之间的差距还是很大的,就像数据仓库在平时工作中以为就那回事,其实如果公司规模小,是并不具备做数仓的土壤的,并不是用了hive,就是做了数仓,其实只是简单的数据处理过程,但是庆幸的是终于能认识一群业内的大佬,并能从中学习到很多。

 近日居士以及几位业内大佬又共谋发起了一个数据挖掘兴趣小组,并且不收费,知识组织大家一起系统性的学习数据挖掘的知识和技能,在此感谢下木东居士规划的学习计划!

话不多说,这篇文章就是学习计划中的重要一环,持续产出,每周将学习的知识点整理出来。为期半年的学习计划分为两部分,统计学和机器学习,以下即为统计学中描述性统计的理论学习。

应用统计学主要分为两大部分,描述性统计推断性统计,本文讲述的便是其中之一描述性统计。

那么何为描述性统计呢?描述性统计分析要对调查总体所有变量的有关数据进行统计性描述。

简单来说,就是用来描述调查对象的一种统计,它主要分为:集中趋势描述、离散程度描述、分布形态描述三种维度。

0x01 知识点整理


1.集中趋势描述

是指找到数据集合的代表值或中心值,这个代表值或中心值用来反映事务目前所处的位置和发展水平,通过多次测量和比较,还能够找到发展和变化趋势。

1.1. 简单算术平均数

简单算术平均数是最典型、最常用、最具代表性的集中趋势描述指标。数据集合中所有数据值相加的和除以数据值个数即得到了简单算术平均数。

                                               \overline{x}=\frac {x_{1}+x_{2}+...+x_{n}} {n}

1.2. 加权算术平均数

当数据集合中的数据值并不是同等重要时,用简单算术平均数就不能很好的描述数据的集中趋势了,这时候就需要用到加权算术平均数。简单算术平均数就是所有数据值的权重相同时候的特殊情况。

                                           \overline{x}=\frac  { f_{1} \overline{x_{1}} +f_{2} \overline{x_{2}}+...+f_{n} \overline{x_{n}} } {f_{1} +f_{2} +...+f_{n} }

公式中的f1、f2、fn即为权。

1.3. 几何平均数

当数据集合中的数据关系不是加减关系,而是乘除关系时。这个时候用几何平均数来描述这种数据集合的集中趋势比较好。

                                                \overline{x}=\sqrt[n]{x_{1} x_{2}...x_{n}}

1.3. 众数

数据集合中出现次数最多的数值称为众数,如果有两个或多个数值的出现次数相同,那么这两个或多个并称为众数, 如果所有数值的出现次数相同,那么该数据集合就没有众数。

1.4. 中位数

将数据集合中所有数据按照大小顺序依次排序,如果数据集合中数值个数是奇数,那么排在中间的数就是中位数,如果是偶数,那么取两个数值的算术平均数即为中位数。

特点:不受数据集合中个别极端值的影响,较为稳定,常被用来度量具有偏斜性质的数据集合的集中趋势。

1.5. 四分位数

对于一组数据集合,将所有数据值按大小排序后,排在四分之一位置的数据即为第一四分位数Q1,排在四分之二位置的数据即为第二四分位数Q2,就是中位数,排在四分之三位置的数据即为第三四分位数Q3,这三个四分位数将数据分成了四等份。

2. 离散程度描述

集中趋势描述在表示数据集合特征时会有不同的缺陷,例如算术平均数会受到极端值的影响,不能完全展现数据集合的特征,离散程度指标可以在一定程度上弥补集中趋势指标的缺陷。

在同类离散指标的比较中,离散指标的数值越小,说明数据集合波动(变异)程度越小,反之则相反。

2.1. 极差(全距)

指数据集中最大值与最小值的差值,表示整个数据集集合能够覆盖的数值距离。

                                            R=x_{max} -x_{min}

特点是表示数据集合的波动大小,缺陷是对于两个极值以外的数值分布情况,极差不能给与反馈,因此来说极差不能全面且精确的描述集合的离散程度。

2.2. 平均偏差

平均差也叫平均绝对离差,指数据集合中每个数据值与算术平均值的离差绝对值的平均数。对于任意一个数据集合,表示其离散程度的一种容易想到的度量方式就是与算术平均值的偏离,但是为了防止偏差之和等于零,因此采取了绝对值。

                                        R_{a}=\frac {\sum\nolimits_{i=1}^n \vert x_{i}-\overline x \vert  } {a}

2.3. 方差与标准差

标准差是方差的正值平方根,方差是指计算数据集合中所有数据值与数据总体均值之差的平方的均值,方差公式:

                                        \sigma^2 =\frac {\sum\nolimits_{i=1}^N (x_{i}-\mu )^2 } {N}

方差利用平方克服了离差和等于0的问题,与平均偏差有异曲同工之妙,但是方差同样有局限性,因为其夸大了数据集合的离散程度,因此标准差为了减小夸大,即采用取方差的算术平方根的方式来描述数据离散程度。

2.4. 四分位差

四分位差,即第一四分位数Q1与第三四分位数Q3之差,反映数据集排序后中间50%数据的离散程度,数值越小,说明中间的数据集离散越小,越集中,反之则相反。特点是不受极值的影响。

2.5. 异众比率

异众比例即非众数数据的次数占总体全部次数的比例,异众比例越大表示众数的代表性越差,异众比例越小代表众数的代表性越好,数据也越集中。

2.6. 离散系数(变异系数)

离散系数是为了解决两组数据标准差和方差相同时,无法区分哪个数据集的离散程度更高,这时候离散系数就可以解决。其本质上就是标准差相对于算术平均值的大小。

3. 分布形态描述

3.1. 偏态系数

偏态系数即为平均值与中位数之差对标准差的比率,用来很亮偏斜的程度,一般用SK(Skewness)表示偏斜系数。

                                        SK = \frac {\overline X -M_{0}} {\sigma }

偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。

偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

偏态系数等于0,对称分布。

3.2. 峰态系数

峰态系数即用来描述数据扁平度的测量,一般用K(Kurtosis)表示。

                                        K=\frac {\sum_{i=1}^k (x_{i} -x)^4f_{i}} {ns^4}

在正态分布情况下,峰态系数是3。

大于3的峰度系数说明观察量更集中,有比正态分布更短的尾部。

小于3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。

0xFF 总结

本文主要是针对《人人都会数据分析》内容的学习总结,写的不好,随便看看,详细实例推荐去看原书。

over~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355

推荐阅读更多精彩内容